Dmitry Lande. Екстрагування об'єктів кібербезпеки з масивів електронних текстових документів мережі інтернет та соціальних мереж

Пучков О., Ланде Д., Субач, І.

Застосування великих мовних моделей для побудови "лісу ієрахій термінів"

// Кібербезпека: освіта, наука, техніка, 2025. - N. 3 (27). - C. 6-21. DOI: 10.28925/2663-4023.2025.27.712

Анотація. Одним із способів упорядкування та систематизації знань є формування термінологічних онтологій, які дозволяють структурувати інформацію в конкретних предметних областях, таких як кібербезпека. У зв'язку з революційною появою великих мовних моделей (large language model, LLM) з'являються нові можливості для автоматизації процесу побудови "лісу ієрархій термінів" (ЛІТ). Побудова ЛІТ є необхідною для таких кількох ключових аспектів у сфері кібербезпеки та управління знаннями, як уніфікація термінології, покращення комунікації, оптимізація інформаційного пошуку, систематизація знань, адаптація до нових викликів, підтримка досліджень та інновацій. У статті розглядається роль LLM у побудові ЛІТ в контексті сучасних викликів інформаційного середовища. Завдяки революційним досягненням у сфері штучного інтелекту, LLM забезпечують автоматизацію та оптимізацію процесів обробки, аналізу та структурування великих обсягів текстових даних. Описано ключові етапи реалізації ЛІТ за допомогою LLM, зокрема обробка текстових даних, визначення дискримінантної сили термінів, встановлення зв'язків між ними та візуалізація результатів. Запропоновано методику визначення асоціативних зв.язків між заздалегідь визначеними термінами для побудови ЛІТ. Наведено приклади практичної реалізації запропонованої методики на основі застосування інформаційно-аналітичної системи "Кібер Агрегатор". Продемонстровано приклад формування промпту для побудови ЛІТ до системи генеративного штучного інтелекту DeepSeek.com. Запропоновано технологію візуалізації ЛІТ шляхом застосування програми для аналізу і візуалізації графів CSV2Graph. Використання запропонованих технологій дозволяє підвищити ефективність і точність побудови термінологічних онтологій, що є важливим для адаптації до швидко зростаючих інформаційних потоків у сучасному світі.
Ключові слова: великі мовні моделі; штучний інтелект; ліс ієрархій термінів; термінологічні онтології; візуалізація даних; кібербезпека.