Ланде Д.В. Анал╕з ╕нформац╕йних поток╕в у глобальних комп.ютерних мережах

// В╕сник НАН Укра╖ни, 2017. - N 3. - C. 46-54.

За матер╕алами науково╖ допов╕д╕ на зас╕данн╕ Презид╕╖ НАН Укра╖ни 25 с╕чня 2017 року

У допов╕д╕ наведено результати досл╕джень з розроблення фундаментальних ╕ прикладних основ анал╕зу ╕нформац╕йних поток╕в у глобальних комп.ютерних мережах. Об╜рунтовано актуальн╕сть цього завдання, показано параметри сучасного ╕нформац╕йного простору, ╕снуюч╕ теоретичн╕ ╕ технолог╕чн╕ р╕шення. Наведено опис методолог╕чних та ╕нструментальних засоб╕в анал╕зу ╕нформац╕йних поток╕в, розроблених в ╤нститут╕ проблем ре╓страц╕╖ ╕нформац╕╖ НАН Укра╖ни, зокрема моделювання ╕нформац╕йних поток╕в, розпод╕леного контент-мон╕торингу глобальних мереж, формування багатомовних повнотекстових баз даних, анал╕зу динам╕ки тематичних ╕нформац╕йних поток╕в ╕з застосуванням вейвлет- ╕ фрактального анал╕зу, автоматичного формування моделей предметних областей.

Ключов╕ слова: ╕нформац╕йн╕ потоки, контент-мон╕торинг, вейвлет-анал╕з, фрактальний анал╕з, модел╕ предметних областей.

Вступ

У глобальних мережах м╕ститься величезна к╕льк╕сть ╕нформац╕╖, за допомогою яко╖ можна вир╕шувати найр╕зноман╕тн╕ш╕ завдання. Однак при цьому важливо вибрати саме ту ╕нформац╕ю, яка ц╕кавить користувача.

Велика к╕льк╕сть ╕нформац╕йних ресурс╕в у глобальних мережах м╕стить р╕зн╕ експертн╕ оц╕нки, певна частина яких пов.язана з реал╕зац╕╓ю ╕нформац╕йних вплив╕в, зд╕йсненням спрямованих ╕нформац╕йних операц╕й, веденням ╕нформац╕йних в╕йн. Так╕ матер╕али можуть бути проанал╕зован╕, узагальнен╕, на ╖х основ╕ можна створювати бази для подальшого прийняття р╕шень, як╕ в╕др╕зняються в╕д традиц╕йних експертних оц╕нок як за обсягами, так ╕ за р╕внем об.╓ктивност╕.

Кр╕м того, в мережах може розм╕щуватися ╕нформац╕я, пов.язана з орган╕зац╕╓ю протиправно╖ д╕яльност╕, тероризмом. В╕дом╕ також ефекти так звано╖ мережево╖ моб╕л╕зац╕╖, впливу на людську св╕дом╕сть, управл╕ння ╕ ман╕пулювання громадською думкою. Анал╕зуючи ╕нформац╕йн╕ потоки, можна знайти ╕ так зван╕ ╕нформац╕йн╕ резервац╕╖ . частини ╕нформац╕йного простору, як╕ характеризуються замкнен╕стю, обмежен╕стю тематики даних.

Отже, врахування ╕нформац╕╖ з мережевих джерел в╕д╕гра╓ важливу роль як для виявлення напрям╕в розвитку економ╕ки, науки, технолог╕й та ╕нших сфер життя, так ╕ для вир╕шення конкретних завдань у сферах безпеки людини, сусп╕льства, держави.

Деяк╕ параметри ╕нформац╕йного простору

На сьогодн╕ к╕льк╕сть ╕нформац╕йних ресурс╕в у глобальних мережах перевищу╓ сотн╕ трильйон╕в документ╕в. У 2014 р. система Google вже ╕ндексувала в мереж╕ 60 трлн документ╕в, причому ц╕ документи розм╕щуються не лише на веб-сайтах. За даними в╕домого ╕нтернет-серв╕су Netcraft (http://netcraft.com), у 2014 р. к╕льк╕сть веб-сайт╕в у мереж╕ вже перетнула позначку в м╕льярд, а нин╕ становить понад 1,7 млрд (рис. 1).

У 2014 р. у виданн╕ Supercomputing Frontiers and Innovations з.явилась публ╕кац╕я, в як╕й стверджувалося, що приблизний обсяг даних у мереж╕ ╤нтернет сяга╓ 1024 байт╕в, тобто один йотабайт. Лише в одн╕й соц╕альн╕й мереж╕ Facebook активн╕ користувач╕ генерують б╕льш як 4 петабайти даних за добу. За даними компан╕╖ CISCO, обсяг ╕нтернет-траф╕ку в 2016 р. досяг одного зеттабайта, тобто 1 099 511 627 776 г╕габайт╕в.

Технолог╕чн╕ р╕шення

При збиранн╕ й анал╕з╕ таких даних виникають проблеми, пов.язан╕ з обробкою надвеликих обсяг╕в даних, пошуком ╕ нав╕гац╕╓ю в динам╕чних ╕нформац╕йних потоках. Величезна к╕льк╕сть багатомовних ╕нформац╕йних ресурс╕в зумовлю╓ складн╕сть ╖х використання при зд╕йсненн╕ ╕нформац╕йно-анал╕тично╖ роботи. Для вир╕шення цих проблем сьогодн╕ застосовуються так╕ технолог╕чн╕ концепц╕╖, як Big Data (велик╕ дан╕, рис. 2), Complex Networks (складн╕ мереж╕), Cloud Computing (хмарн╕ обчислення), Data/Text Mining (глибинний анал╕з даних ╕ тексту).

Проблеми розм╕рност╕ ╕ динам╕ки багатомовних ╕нформац╕йних ресурс╕в у глобальних мережах потребують проведення фундаментальних досл╕джень у галуз╕ дискретно╖ математики (теор╕╖ граф╕в, мереж), розп╕знавання образ╕в (класиф╕кац╕я, кластерний анал╕з), л╕нгв╕стики, цифрово╖ обробки сигнал╕в, вейвлет- ╕ фрактального анал╕зу тощо.

У св╕т╕ й дос╕ залишаються невир╕шеними завдання ефективно╖ анал╕тично╖ обробки ╕нформац╕╖ з глобальних мереж, оперативного вилучення необх╕дних фактограф╕чних даних, виявлення тренд╕в в окремих предметних областях, розп╕знавання зм╕стових аномал╕й, прогнозування тощо. Б╕льш╕сть ╕з зазначених завдань . це актуальн╕ проблеми семантично╖ обробки надвеликих динам╕чних масив╕в ╕нформац╕╖. Нав╕ть спроби часткового практичного вир╕шення цих проблем зумовили усп╕шн╕сть таких проект╕в, як пошуков╕ системи Google, Yandex, Baidu, системи мон╕торингу соц╕альних мереж (SMM) типу Keyhole, Brandwatch, CyberAlert, анал╕тичн╕ системи типу Palantir, Centrifuge, i2 та ╕н. В Укра╖н╕ до таких систем можна в╕днести, зокрема, системи, створен╕ на баз╕ наукових результат╕в, отриманих в ╤нститут╕ проблем ре╓страц╕╖ ╕нформац╕╖ (╤ПР╤) НАН Укра╖ни, . система контент-мон╕торингу InfoStream, анал╕тична система X-SCIF, система сканування ресурс╕в соц╕альних мед╕а Robusta тощо.

Розробки ╤нституту проблем ре╓страц╕╖ ╕нформац╕╖ НАН Укра╖ни

В ╤ПР╤ НАН Укра╖ни було теоретично об╜рунтовано ╕ створено засоби:

  • моделювання ╕нформац╕йних поток╕в у глобальних комп.ютерних мережах, зокрема мультиагентну модель розповсюдження ╕нформац╕╖;
  • розпод╕леного контент-мон╕торингу глобальних мереж;
  • формування багатомовних повнотекстових баз даних;
  • анал╕зу динам╕ки тематичних ╕нформац╕йних поток╕в, зокрема, вперше застосовано вейвлет-анал╕з до задач виявлення ╕нформац╕йних операц╕й;
  • прогнозування розвитку под╕й на основ╕ фрактального анал╕зу;
  • формування мереж вза╓мозв.язку понять, що екстрагуються ╕з тестових масив╕в, ╕ анал╕зу цих мереж;
  • автоматичного формування моделей предметних областей.

Мультиагентна модель розповсюдження ╕нформац╕╖. Для моделювання тематичних ╕нформац╕йних поток╕в як пол╕гон для подальших досл╕джень в ╤ПР╤ НАН Укра╖ни створено мультиагентну модель поширення ╕нформац╕╖ в соц╕альних мережах [1, 2]. Для цього форму╓ться близький до реальност╕ в╕ртуальний ╕нформац╕йний прост╕р, населений в╕ртуальними агентами, з якими асоц╕юються окрем╕ пов╕домлення в соц╕альн╕й мереж╕ ╕ як╕ ╕нкапсулюють у соб╕ г╕перпосилання на ╕нформац╕йн╕ ресурси мереж╕ ╤нтернет. Передбача╓ться, що окрем╕ агенти можуть самозароджуватися; породжувати нових агент╕в шляхом репостингу (repost); .вмирати. . зникати з простору агент╕в; отримувати лайки (like) в╕д ╕нших агент╕в. Кожен агент ма╓ .потенц╕ал., залежний в╕д часу його життя, авторитетност╕ (г╕перпосилань, проставлених на нього) ╕ плодючост╕ (к╕лькост╕ породжених безпосередньо ним агент╕в).

Вар╕ювання в╕дпов╕дними параметрами модел╕ да╓ можлив╕сть змоделювати р╕зноман╕тн╕ проф╕л╕ повед╕нки ╕нформац╕йних сюжет╕в. На рис. 3 наведено приклад можливо╖ динам╕ки мультиагентно╖ системи.

У результат╕ проведених досл╕джень було реал╕зовано програму еволюц╕╖ простору агент╕в, досл╕джено еволюц╕ю мультиагентно╖ системи, знайдено аналог╕╖ з реальними тематичними ╕нформац╕йними потоками. Виявлено статистичн╕ законом╕рност╕, що стосуються житт╓вого циклу окремих пов╕домлень, розпод╕л яких в╕дпов╕да╓ розпод╕лу Вейбулла. Дан╕ моделювання було п╕дтверджено шляхом пор╕вняння з реальною мережею м╕кроблог╕в Twitter.


[an error occurred while processing this directive][an error occurred while processing this directive] File not found. [an error occurred while processing this directive]

pdf

https://doi.org/10.15407/visn2017.03.045

HOME