cover-21-1

Дмитро Ланде, Олександр Пучков, Ігор Субач.
Агрегація інформації з різнорідних мереж як основа підготовки фахівців з кібербезпеки з питань оброблення надвеликих масивів даних
// Information Technology and Security. Том 9, N 1 (2021). - C. 4-16.
DOI: doi.org/10.20535/2411-1031.2021.9.1.247256

На цей час в галузі кібернетичної безпеки все більшу роль грає поняття "великих даних" (Big Data). Звичайно, кількість даних, яку необхідно враховувати в галузі кібербезпеки постійно зростає, разом з цим зростають й обсяги інформаційного шуму, інколи деструктивного характеру. Фахівці, що займаються обробкою, агрегацією великих обсягів даних, вирішенням проблем, обумовлених їх зростанням, динамікою, варіативністю на цей час називають .вченими з обробки даних. (Data Scientists), відповідно, наука - Data Science.

В роботі обґрунтовано і представлено основні положення навчального курсу "Оброблення надвеликих масивів даних" як введення в спеціальність Data Science в сфері кібербезпеки, на основі вивчення теоретичних основ цієї спеціальності і практичного застосування відповідних інформаційних технологій агрегації великих обсягів даних.

В рамках курсу "Оброблення надвеликих масивів даних" розглядаються базові, найпоширеніші сьогодні технології і інструменти в області кібербезпеки, перелік яких дозволяє отримати досить цілісне уявлення про те, що використовують сьогодні фахівці в області Data Science і інструменти, якими необхідно володіти, щоб вести проекти з використанням великих даних.

Предметом навчальної дисципліни є фундаментальні положення про концепцію "великих даних"; відповідні моделі даних; архітектурні концепції створення інформаційних систем для "великих даних"; аналітика "великих даних", а також питання практичного застосування результатів обробки "великих даних". Дисципліна включає два розділи: "Великі дані: теоретичні засади", і "Технологічні застосування для великих даних" і десять тем в рамках цих розділів, які розглянемо детально.

Як екосистема, полігон для проведення практичних занять в рамках курсу розглядається макет на основі системи "КіберАгрегатор", який створено і постійно удосконалюється в рамках даного курсу.

Система "КіберАгрегатор" складається з трьох основних частин, це сервер для збору та первинної обробки інформації, сервер пошуку інформації (пошукова система) та інтерфейсний сервер, з якого послуга надається користувачам та іншим системам через API. Система базується на таких технологічних компонентах, як інформаційно-пошукова система Elasticsearch, утілити Kibana, графових систем керування базами даних Neo4j, засобів візуалізації результатів на основі JavaScript (D3.js) і модулі сканування мережевої інформації. Система забезпечує реалізацію таких функцій, як формування баз даних з визначених інформаційних ресурсів; ведення повнотекстових баз даних з інформації; виявлення дублікатів, схожих за змістом інформаційних повідомлень; повнотекстовий пошук; аналіз текстових повідомлень, визначення тональності, формування аналітичних звітів; інтеграцію з географічною інформаційною системою; аналіз та візуалізацію даних; дослідження динаміки тематичних інформаційних потоків; прогнозування розвитку подій на основі аналізу динаміки публікацій тощо. В результаті проходження курсу студенти отримують знання і навички, необхідні для ефективної обробки великих обсягів даних із соціальних мереж,створення систем моніторингу мережевої інформації з питань кібербезпеки, відбору релевантної інформації із соціальних мереж, впровадження пошукової системи, проведенні аналітичних досліджень, прогнозування.

Ключові слова: Big Data, Соціальні мережі, Навчальний курс, Інформаційно-пошукові системи, Агрегація даних, Data Science

Text in PDF

DWL HOME