Dmitry Lande.

Д.В. Ланде, О.О. Рибак

Семантичне індексування та кластерний аналіз документів з кібербезпеки

// Реєстрація, зберігання і обробка даних, 2024, Т. 26, N 2, C. 19-32.

Анотація. Розглянуто методи екстракції концептів із текстів і побудови семантичних мереж для аналізу даних у контексті кібербезпеки. Основна увага приділена використанню великих мовних моделей (LLM) для автоматизованого витягу сутностей і побудови мереж концептів. Це дозволяє визначати взаємозалежності та структурувати інформацію, формувати семантичні мережі. Такі мережі можна використовувати для подальшого кластерного аналізу, що дає можливість автоматично групувати вузли за схожістю та визначати нові закономірності в даних. Досліджено побудову мереж близькості документів, що дозволяє оцінювати ступінь схожості текстів на основі їхніх семантичних структур. Запропонований підхід дозволяє виявляти тематично споріднені документи, що можуть містити важливу інформацію для аналізу, а також визначати інформаційні ланцюжки та ключові тенденції у великих масивах текстових даних, ключові тенденції і загрози у сфері кібербезпеки.
Ключові слова: семантичне індексування, кластерний аналіз, модулярність, великі мовні моделі (LLM), кібербезпека, аналіз тексту, семантичні мережі.