Д.В. Ланде, О.О. Рибак

Семантичне ╕ндексування та кластерний анал╕з документ╕в з к╕бербезпеки

// Ре╓страц╕я, збер╕гання ╕ обробка даних, 2024, Т. 26, N 2, C. 19-32.

Анотац╕я. Розглянуто методи екстракц╕╖ концепт╕в ╕з текст╕в ╕ побудови семантичних мереж для анал╕зу даних у контекст╕ к╕бербезпеки. Основна увага прид╕лена використанню великих мовних моделей (LLM) для автоматизованого витягу сутностей ╕ побудови мереж концепт╕в. Це дозволя╓ визначати вза╓мозалежност╕ та структурувати ╕нформац╕ю, формувати семантичн╕ мереж╕. Так╕ мереж╕ можна використовувати для подальшого кластерного анал╕зу, що да╓ можлив╕сть автоматично групувати вузли за схож╕стю та визначати нов╕ законом╕рност╕ в даних. Досл╕джено побудову мереж близькост╕ документ╕в, що дозволя╓ оц╕нювати ступ╕нь схожост╕ текст╕в на основ╕ ╖хн╕х семантичних структур. Запропонований п╕дх╕д дозволя╓ виявляти тематично спор╕днен╕ документи, що можуть м╕стити важливу ╕нформац╕ю для анал╕зу, а також визначати ╕нформац╕йн╕ ланцюжки та ключов╕ тенденц╕╖ у великих масивах текстових даних, ключов╕ тенденц╕╖ ╕ загрози у сфер╕ к╕бербезпеки.

Ключов╕ слова: семантичне ╕ндексування, кластерний анал╕з, модулярн╕сть, велик╕ мовн╕ модел╕ (LLM), к╕бербезпека, анал╕з тексту, семантичн╕ мереж╕.

PDF

Home