Дмитро Ланде, Олександр Пучков, ╤гор Субач.
Агрегац╕я ╕нформац╕╖ з р╕знор╕дних мереж як основа п╕дготовки фах╕вц╕в з к╕бербезпеки з питань оброблення надвеликих масив╕в даних
// Information Technology and Security. Том 9, N 1 (2021). - C. 4-16.
DOI: doi.org/10.20535/2411-1031.2021.9.1.247256
На цей час в галуз╕ к╕бернетично╖ безпеки все б╕льшу роль гра╓ поняття "великих даних" (Big Data). Звичайно, к╕льк╕сть даних, яку необх╕дно враховувати в галуз╕ к╕бербезпеки пост╕йно зроста╓, разом з цим зростають й обсяги ╕нформац╕йного шуму, ╕нколи деструктивного характеру. Фах╕вц╕, що займаються обробкою, агрегац╕╓ю великих обсяг╕в даних, вир╕шенням проблем, обумовлених ╖х зростанням, динам╕кою, вар╕ативн╕стю на цей час називають .вченими з обробки даних. (Data Scientists), в╕дпов╕дно, наука - Data Science. В робот╕ об╜рунтовано ╕ представлено основн╕ положення навчального курсу "Оброблення надвеликих масив╕в даних" як введення в спец╕альн╕сть Data Science в сфер╕ к╕бербезпеки, на основ╕ вивчення теоретичних основ ц╕╓╖ спец╕альност╕ ╕ практичного застосування в╕дпов╕дних ╕нформац╕йних технолог╕й агрегац╕╖ великих обсяг╕в даних. В рамках курсу "Оброблення надвеликих масив╕в даних" розглядаються базов╕, найпоширен╕ш╕ сьогодн╕ технолог╕╖ ╕ ╕нструменти в област╕ к╕бербезпеки, перел╕к яких дозволя╓ отримати досить ц╕л╕сне уявлення про те, що використовують сьогодн╕ фах╕вц╕ в област╕ Data Science ╕ ╕нструменти, якими необх╕дно волод╕ти, щоб вести проекти з використанням великих даних. Предметом навчально╖ дисципл╕ни ╓ фундаментальн╕ положення про концепц╕ю "великих даних"; в╕дпов╕дн╕ модел╕ даних; арх╕тектурн╕ концепц╕╖ створення ╕нформац╕йних систем для "великих даних"; анал╕тика "великих даних", а також питання практичного застосування результат╕в обробки "великих даних". Дисципл╕на включа╓ два розд╕ли: "Велик╕ дан╕: теоретичн╕ засади", ╕ "Технолог╕чн╕ застосування для великих даних" ╕ десять тем в рамках цих розд╕л╕в, як╕ розглянемо детально. Як екосистема, пол╕гон для проведення практичних занять в рамках курсу розгляда╓ться макет на основ╕ системи "К╕берАгрегатор", який створено ╕ пост╕йно удосконалю╓ться в рамках даного курсу. Система "К╕берАгрегатор" склада╓ться з трьох основних частин, це сервер для збору та первинно╖ обробки ╕нформац╕╖, сервер пошуку ╕нформац╕╖ (пошукова система) та ╕нтерфейсний сервер, з якого послуга нада╓ться користувачам та ╕ншим системам через API. Система базу╓ться на таких технолог╕чних компонентах, як ╕нформац╕йно-пошукова система Elasticsearch, ут╕лити Kibana, графових систем керування базами даних Neo4j, засоб╕в в╕зуал╕зац╕╖ результат╕в на основ╕ JavaScript (D3.js) ╕ модул╕ сканування мережево╖ ╕нформац╕╖. Система забезпечу╓ реал╕зац╕ю таких функц╕й, як формування баз даних з визначених ╕нформац╕йних ресурс╕в; ведення повнотекстових баз даних з ╕нформац╕╖; виявлення дубл╕кат╕в, схожих за зм╕стом ╕нформац╕йних пов╕домлень; повнотекстовий пошук; анал╕з текстових пов╕домлень, визначення тональност╕, формування анал╕тичних зв╕т╕в; ╕нтеграц╕ю з географ╕чною ╕нформац╕йною системою; анал╕з та в╕зуал╕зац╕ю даних; досл╕дження динам╕ки тематичних ╕нформац╕йних поток╕в; прогнозування розвитку под╕й на основ╕ анал╕зу динам╕ки публ╕кац╕й тощо. В результат╕ проходження курсу студенти отримують знання ╕ навички, необх╕дн╕ для ефективно╖ обробки великих обсяг╕в даних ╕з соц╕альних мереж,створення систем мон╕торингу мережево╖ ╕нформац╕╖ з питань к╕бербезпеки, в╕дбору релевантно╖ ╕нформац╕╖ ╕з соц╕альних мереж, впровадження пошуково╖ системи, проведенн╕ анал╕тичних досл╕джень, прогнозування. Ключов╕ слова: Big Data, Соц╕альн╕ мереж╕, Навчальний курс, ╤нформац╕йно-пошуков╕ системи, Агрегац╕я даних, Data Science |