Dmytro Lande, Oleksandr Puchkov, Ihor Subach.
Cистема аналізу великих обсягів даних з питань кібербезпеки із соціальних медіа
// Information Technology and Security. Том 8, N 1 (2020). - C. 4-18.
DOI: doi.org/10.20535/2411-1031.2020.8.2.222597
Запропоновано та обґрунтовано підходи до побудови системи моніторингу та аналізу соціальних медіа з питань
кібербезпеки, які базуються на концепції обробки великих обсягів даних, складних мереж, добування знань із
текстових масивів. Детально розглянуті компоненти технології Elastic Stack, інформаційно-пошукова система
Sphinx, графова система управління базами даних Neo4j та система аналізу графів Gephi. Основна ідея створення
системи аналізу великих обсягів даних з питань кібербезпеки із соціальних медіа
- це одночасне застосування
методів і засобів інформаційного пошуку, аналізу даних та агрегування інформаційних потоків.
Система забезпечує реалізацію таких функцій: формування баз даних шляхом збору інформації з визначених інформаційних ресурсів; налаштування модулів автоматичного сканування і первинної обробки інформації з веб сайтів і соціальних мереж; ведення повнотекстових баз даних з інформації; виявлення дублікатів, схожих за змістом інформаційних повідомлень; повнотекстовий пошук; аналіз текстових повідомлень, визначення тональності, формування аналітичних звітів; інтеграцію з географічною інформаційною системою; аналіз та візуалізацію даних; дослідження динаміки тематичних інформаційних потоків; прогнозування розвитку подій на основі аналізу динаміки публікацій в соціальних медіа; забезпечення доступу багатьох користувачів до функціональних компонентів системи. Практичне значення отриманих результатів полягає в створенні діючого макету системи контент-моніторингу і аналізу соціальних медіа з питань кібербезпеки, який придатний до застосування як компоненти у складі систем підтримки прийняття рішень щодо інформаційної та кібербезпеки. Розглянуто інтерфейс макету системи, в якому доступні функції пошуку, аналізу та прогнозування появлення інформації в соціальних медіа. Центральне місце інтерфейсу займає дайджест із найбільш релевантних потребам користувача повідомлень. В аналітичному режимі реалізовано низку інструментів для графічного представлення аналізованих даних, які відображуються у вигляді часового ряду кількості релевантних запиту повідомлень на добу, а також перегляду головних сюжетів за темою, кластерів, згрупованих за відповідністю заздалегідь визначеним опорним словам. У системі передбачені режими формування мереж із понять, що відповідають окремим повідомленням (персон, брендів) та інформаційних джерел, які дозволяють ранжувати за рейтингом поняття та досліджувати взаємозв.язки між ними. |