Це помножить наш╕ можливост╕

 

Самойленко Верон╕ка Олександр╕вна,

директор центру комплексних досл╕джень

з питань антимонопольно╖ пол╕тики

Ланде Дмитро Володимирович, к.т.н.,

заступник директора ╤нформац╕йного центру "Електронн╕ в╕ст╕"

Бородьонков Серг╕й Андр╕йович,

кер╕вник проекту ╤нформац╕йного центру "Електронн╕ в╕ст╕"

 

1.      ╤нформац╕йна п╕дтримка прийняття р╕шень з широкого спектров╕ питань

 

Для структурнихп╕дрозд╕л╕в Антимонопольного ком╕тету Укра╖ни ╓ досить актуальним пошук додаткових можливостей отримання ╕нформац╕╖, що допомагало б оперативно ╕ як╕сно справлятися з величезними обсягами роботи. Да╓ться велике навантаження на централ╕зовану систему доступу довсесв╕тньо╖ мереж╕, а також в╕дсутн╕сть певно╖ програмно╖ оболонки для систематично╖ обробки ╕нформац╕╖ ╕ навичок користування такого роду системами.

 

Р╕к тому перед Центром комплексних досл╕джень з питань антимонопольно╖ пол╕тики було поставлено завдання створити систему, яка б ╕нтегрувала ресурси новин та ╕ншу ╕нформац╕ю з мереж╕ ╤нтернет ╕ формувала бази даних у зручн╕й для користувача форм╕. Таку розробку Центр комплексних досл╕джень розпочав разом з в╕домим у галуз╕ мережних технолог╕й ╤нформац╕йним центром "Електронн╕ в╕ст╕". ╤ сьогодн╕ вже можна говорити про появу готового програмного продукту - InfoStream,- на основ╕ якого можлива п╕дготовка р╕шень широкого спектров╕ завдань, що поставлен╕ перед Ком╕тетом, таких як:

-         анал╕з под╕й, реакц╕╖ на заходи, зд╕йснен╕ Ком╕тетом;

-         виявлення тенденц╕й ринк╕в товар╕в ╕ послуг;

-         зд╕йснення ╕нформац╕йного контролев╕ за дотриманням основ конкурентност╕;

-         оц╕нка сфер впливу конфл╕ктних або кризових ситуац╕й;

-          анал╕з д╕яльност╕ монопол╕ст╕в.

 

2.      Технолог╕я мон╕торингу ╕нформац╕йних ресурс╕в мереж╕ ╤нтернет

 

Система мон╕торингу мережних ресурс╕в InfoStream, дозволя╓ забезпечити автоматизований зб╕р ╕нформац╕╖ з в╕дкритих веб-сайт╕в, обробляти, систематизувати, узагальнювати ╕╖. Цю систему вже експериментально впроваджено в Центр╕ комплексних досл╕джень з питань антимонопольно╖ пол╕тики в ╕нтересах Антимонопольного ком╕тету Укра╖ни.

 

За словами англ╕йського психолога доктори Дэвида Лью╕са, "занадто великий обсяг ╕нформац╕╖ наст╕льки ж небезпечний, як ╕ занадто малий . ╥╖ надлишок може призвести до парал╕чу анал╕тичних зд╕бностей, що ускладню╓ можлив╕сть правильного вибору або ухвалення оптимального р╕шення". У друг╕й половин╕ 90-х рок╕в було п╕драховано, що доступний людству обсяг ╕нформац╕╖ подвою╓ться кожн╕ п'ять рок╕в. У даний час, насамперед, завдяки розвитков╕ мережних технолог╕й, цей пер╕од скоротився до 18 м╕сяц╕в. Усе сказане справедливо також для Укра╖нського ╕нформац╕йного простору. На цей час к╕льк╕сть веб-сайт╕в в Укра╖н╕ вже перевищу╓ 20 тисяч, а зр╕з св╕жо╖ ╕нформац╕╖ становить в╕д 5 до 10 тисяч пов╕домлень на добу. При цьому варто враховувати, що пост╕йно росте обсяг лег╕тимно╖ ╕нформац╕╖, що розм╕щу╓ться в ╤нтернет╕ державними органами, комерц╕йними структурами.

 

На першому етап╕ в запропонован╕й систем╕ InfoStream редактори-експерти в автоматизованому режим╕ оц╕нюють ресурси ╕ формують проф╕л╕, що задовольняють ╕нформац╕йн╕ потреби замовника. Пот╕м веб-ресурсы автоматично скануються в╕дпов╕дно до проф╕л╕в, в╕дбува╓ться перетворення ╕нформац╕╖у внутр╕шн╕й системний формат з додаванням тег╕в (дати, часу, ╕мен╕ ╕ типу джерела), спец╕ально марку╓ться ╕нформац╕я,що дублю╓ться. В╕дпов╕дно до заданих параметр╕в викону╓ться автоматична класиф╕кац╕ята завантаження ╕нформац╕╖ до бази даних. Служба п╕дготовки й обробки запит╕в користувач╕в врахову╓ зм╕стовну частину ╕ вимоги до регламенту доставки. ╤ нарешт╕, зд╕йсню╓ться доставка ╕нформац╕╖ електронною поштою, або орган╕зу╓ться персон╕ф╕кований доступ кл╕╓нт╕в до повнотекстово╖ бази даних.

 

Технолог╕чним ядромInfoStream системи ╓ повнотекстова ╕нформац╕йно-пошукова система InfoRes, що забезпечу╓ обробку даних у трьох основних режимах:

 

-         виб╕ркового розповсюдження ╕нформац╕╖ (ВР╤);

 

-         ╕нтерактивного доступу до повнотекстових баз даних;

 

-         контент-мон╕торинга (╚глибинного анал╕зу текст╕в╩ √ Text Mining).

 

══ У режим╕ ВР╤зд╕йсню╓ться автоматичний пошук ╕ доставка матер╕ал╕в заздалег╕дь визначеними запитами √ сукупностями ключових сл╕в ╕ лог╕чних оператор╕в. Гнучка системанастроювань ╕ ф╕льтр╕в за джерелами, кра╖нами, рубриками, датами дозволя╓ користувачев╕один раз задати запитп╕сля чого пер╕одично одержуватиелектронною поштою доб╕рку в╕дпов╕дних (релевантних) документ╕в. Повнота, оперативн╕сть, релевантн╕сть√ головн╕ характеристики системи.

 

═══════ ═══ У режим╕ ╕нтерактивного доступу до баз даних користувач може внести в ╕нтерфейс системи в найпрост╕шому вар╕ант╕ власний запит, щома╓, наприклад, такий вигляд: АМКУ|(АМК~Украины)|(АМК~укра╖ни). Даний запит дозволя╓ одержати ╕з загально╖ бази данихдоб╕рку документ╕в, у яких згаду╓ться Ком╕тет. Отримання документ╕в, що в╕дпов╕дають такому запитов╕, належить скор╕ше до загального анал╕зу под╕й тазаход╕в ╕ зац╕кавить, наприклад,══ прес-службу Ком╕тету. Для анал╕зу д╕яльност╕ учасник╕в ринку за допомогою системи InfoStream можна створититематичн╕ канали, до окремих пов╕домлень яких входять назви в╕дпов╕дних ф╕рм, ╕мена та тощо.Цей режим ор╕╓нтований, насамперед, нароботу експерт╕в-анал╕тик╕в, як╕ працюють ╕ззапитами, що пост╕йно зм╕нюються.В╕н ╕деально п╕дходить для проведення пост╕йного контролю, наприклад, за конкурентним середовищем, оц╕нкою ринк╕в, д╕ловою розв╕дкою.

 

Для того, щоб уникнути ╕нформац╕йного ╚перевантаження╩ ╕отримати найб╕льш ╕стотн╕ документи необх╕дно╖тематики, передбачено режим контент-мон╕торинга. Тут можна скористатися технолог╕ями побудови ╕нформац╕йних портрет╕в, як засобами узагальнення й уточнення запит╕в, г╕стограм динам╕ки появипонять або автоматичних дайджест╕в, що реал╕зують сучасний п╕дх╕д ╚глибинного анал╕зу текст╕в╩ √ Text Mining.

 

3. Використання системи InfoStream при анал╕з╕ ринк╕в

 

Про важлив╕сть мон╕торингово╖ ╕нформац╕╖ стану товарних ринк╕в, ╕ не т╕льки в контекст╕ реал╕зац╕╖ конкурентно╖ пол╕тики св╕дчить Постанова Каб╕нету М╕н╕стр╕в Укра╖ни "Про заходи щодо проведення мон╕торингу ц╕н ╕ тариф╕в на споживчому ринку" ╧ 803 в╕д 13 червня 2002 року.

 

Система InfoStream при анал╕з╕ ринк╕в д╕╓ у двох основних режимах: виб╕ркового══ поширення ╕нформац╕╖ та ╕нтерактивного (он-лайн) доступу до повнотекстових базданих ╕нформац╕йних пов╕домлень. В обох режимах для одержання результат╕в необх╕дно ввести запит, що або збер╕га╓ться в спец╕альн╕й баз╕ даних для орган╕зац╕╖ передплати, або вводиться у в╕кно пошуку в режим╕ он-лайн.

 

При робот╕ в "он-лайн" документи у списку результат╕в пошуку представлено заголовком, анотац╕╓ю (першим абзацом), датою ╕ часом надходження, назвою сайта-джерела ╕ г╕перпосиланням на документ-ориг╕нал. Заголовок явля╓ собою г╕перпосилання на текстовий зразок документа. Список результат╕в пошуку в╕дсортований по дат╕ ╕ часов╕ √ на перших позиц╕ях представлен╕документи, що над╕йшли останн╕ми. На одн╕й екранн╕й стор╕нц╕ представлена ф╕ксована к╕льк╕сть посилань. Якщо к╕льк╕сть знайдених документ╕в перевищу╓ 10, виведення списку документ╕в супроводжу╓ться ╕нформац╕йним портретом у вигляд╕ таблиц╕ з ключовими словами, як╕ в╕дпов╕дають тематиц╕ запиту та використовуються для його уточнення.

 

При актив╕зац╕╖ г╕перпосилання, що пов'язане ╕з заголовком документа, в╕добража╓ться його текстовий образ, у якому кольором вид╕лено слова, як╕ входять до запиту. Текстовий образ документа також м╕стить назву сайта-джерела та г╕перпосилання на документ-ориг╕нал.

══════════

═════════════ Запити до системи InfoStream вводяться за допомогою в╕дпов╕дних правил, що в сукупност╕ називаються "мовою запит╕в". В "он-лайн" режим╕ запит вводиться й переда╓ться пошуков╕й систем╕ при натисканн╕ кнопки "Пошук". У режимах передплати запити збер╕гаються адм╕н╕стратором системи в баз╕ даних.

 

══════════ Запити складаються з терм╕в (сл╕в або ╖хн╕х правих скорочень) ╕ оператор╕в. Терми √ це слова природно╖ мови або ╖хн╕ прав╕ ус╕кання, що складаються, як м╕н╕мум, з 2-х л╕тер. Кожне введене слово сприйма╓ться як основа для пошуку, тобто п╕сля введення, наприклад, запиту завод, можна знайти документи, що м╕стять словоформи: "заводу", "заводити", "заводи" тощо. При необх╕дност╕ знаходження точного входження слова, при введенн╕ запиту варто додати до слова символ "]", наприклад: завод].

 

Система не розр╕зня╓ прописних ╕ малих л╕тер, тому для пошуково╖ процедури запити завод]Завод] р╕внозначн╕.

 

Словосполучення √ це терми, що складаються з дек╕лькох сл╕в. Для пошуку за словосполученнями використову╓ться спец╕альний оператор контекстно╖ близькост╕ ADJ (можливо скорочене написання - "~").

Оператор контекстно╖ близькост╕ забезпечу╓ доб╕р документ╕в, до яких входять слова, зв'язан╕ цим оператором. Якщо ╕ншого не вимага╓ться, то ц╕ слова повинн╕ знаходитися в документах у зазначен╕й посл╕довност╕ поруч один з одним(м╕ж ними такожв╕дсутн╕ як╕-небудь ╕нш╕ слова). ╤сну╓ можлив╕сть завдання в╕дстан╕ м╕ж словами в запит╕: /0/ - сус╕дн╕ слова (якщо ╕ншого не вимага╓ться), /1/ - не б╕льш 1 слова в текст╕ документа м╕ж словами з запиту; /2/ - не б╕льш 2-х сл╕в ╕ т.д. Наприклад, запит транспорт~/1/нафти забезпечу╓ перебування документ╕в, до складу яких входять словосполучення "транспортування нафти" ╕ "транспорт ╕рансько╖ нафти", у той час, як запит транспорт~нефти дозволить вибрати т╕льки документ з першим словосполученням.

 

У систем╕ використову╓ться наступний наб╕р лог╕чних оператор╕в:

-        NOT - лог╕чне Н╤, що розум╕╓ться як НЕМА╢;

-        AND - лог╕чне ;

-        OR - лог╕чне АБО.

При вживанн╕ оператор╕в допуска╓ться також ╖хн╓ скорочене написання:

-        NOT р╕внозначне "!" або "^";

-        ANDр╕внозначне проб╕лу або "&" або "+";

-        ORр╕внозначне "|" або "," або ";".

 

Наприклад, запит банк&кредит&укра╖н р╕внозначний запитам банк кредит укра╖н, банк+кредит+укра╖н ╕ забезпечу╓ доб╕р документ╕в, до яких входять ус╕ три терми √ банки, кредит, укра╖н.

 

═══ Запит може бути багатор╕вневим. Р╕зн╕ р╕вн╕ визначаються за допомогою круглих дужок. За допомогою дужок також рекоменду╓ться вид╕ляти терми-словосполучення.

 

Використання можливостей системи InfoStream для ╕нформац╕йно╖ п╕дтримки прийняття р╕шень особливо ефективне при вивченн╕ стану ╕ тенденц╕й розвитку ринк╕в товар╕в та послуг. ╤нформац╕йний центр "Електронн╕ в╕ст╕" разом ╕з сп╕вроб╕тниками Центру досл╕джень ╕ представниками вс╕х управл╕нь Ком╕тету провели заняття-консультац╕╖, в результат╕ яких було сформовано запити, що дозволяють отримувати повну, р╕знопланову ╕нформац╕ю щодо ринк╕в нафтопродукт╕в, буд╕вельних матер╕ал╕в, банк╕вських ╕ страхових послуг, ц╕нних папер╕в, обл╕гац╕й тощо. Анал╕з ц╕╓╖ ╕нформац╕╖ дозволя╓ максимально оперативно реагувати на зм╕ни, що в╕дбуваються на ринках, виявляти факти недобросов╕сно╖ конкуренц╕╖, порушень антимонопольного законодавства, контролювати д╕яльн╕сть в╕домих ╕ нових бренд╕в, трейдер╕в. Наведемо деяк╕ ╕з запит╕в, що в╕дображають типов╕ ╕нформац╕йн╕ потреби окремих Управл╕нь Ком╕тету.

 

Наприклад, для одержання ╕нформац╕╖ з ринку нафтопродукт╕в в Укра╖н╕, був використаний запит:

 

(цен | ц╕н | тариф | стимост | варт╕ст | объем |

обсяг | рынок | ринок | рынка | ринку | производ|

виробн | добыч | видобут | переработк | переробк |

нефтеперер | нафтопер | газоперер | реализац |

реал╕з | экспорт | импорт | ╕мпорт | нпз | гпз ] )

&

(гсм ] | пмм ] | (горюч~смазочн) | (пали~мастильн) |

(дизельн~топлив) | (дизельн~пальн) | бензин |

дизтоплив | дизпал| дт ] | дп ] | нефт | нафт | газ ]|

газв | газу | масел ] мастил]

&country.ua

 

Для в╕дстеження зм╕н на ринку страхування в Укра╖н╕ використовувалася наступна редакц╕я запиту:

 

(ринок | рынок | ринк | рынк | договор | услуг |

послуг | операц | страховщ| страхован | страхуван)]

| (страх~/2/вклад) | (страх~жизн) | (страх~житт)|

(страх~/2/имущ) | (страх~/2/майн) | (страх~прем]

| (страх~винагород) | (страх~систем) | (страх~случ) |

(страх~випад) | (страх~выплат) | (страх~виплат) |

ын~страхов) | (рин~страхув) | (страх~деятель)

| (страх~д╕яльн)| (страх~защит) | (страх~захист)

| (вид~страхов) | перестрахован| перестрахуван | автострах)

&

(украин | укра╖н)

 

Пошук новин ринку банк╕вських послуг в Укра╖н╕ проводиться за запитом:

 

(банковск | банковськ| |bcz]|visa]|eurocard]|mastercard|(american~express)|europay]|

(union~card)|(diners~club)|смэп]|смеп]|нсмэп]|нсмеп] |(пластик~карт)|(плат~карт)|(кредитн~карт)|(корпорат~карт)|

(плат~систем)|(электронн~платеж)|(електрон~плат╕ж)|

(электронн~/2/перев)|укркарт | moneygram| банкомат| драгоц|

western~union|межбанк)

&

((зарпл~про)| вклад | кредит | инвест| ╕нвест | страхован| ставки | ставке |рисков ] ризик╕в | валют| тарифы | тарифи |банк]|банки]| банка]|банках]|банке]|банка]| банках ] |банку] |банков] | банк╕в ] | банкам ] | банками

&

(укра|country.ua)

 

 

Для селекц╕╖ новин про факти недобросов╕сно╖ конкуренц╕╖ в Укра╖н╕ використовувався запит:

[(недобросов~кокуренц) | (несов╕стн~кокуренц))&укра

 

Для мон╕тор╕нгу публ╕кац╕й про д╕яльн╕сть Антимонопольного ком╕тету Укра╖ни був використаний запит:

(антимон~/3/укра) | (АМК]~укра) | АМКУ ],

який дозволя╓ одержувати ус╕ новини про Ком╕тет рос╕йською та укра╖нською мовами.

 

 

4. Проблеми ╕ перспективи розвитку системи.

 

Система InfoStream, даючи широкий, повний ╕ структурований огляд ╕нформац╕йних ресурс╕в з ╤нтернет, забезпечу╓:

 

-         економ╕ю часу, засоб╕в, людських ресурс╕в;

 

-         сво╓часне виявлення нових антиконкурентних прояв╕в;

 

-         в╕дстеження галузевих ╕ ринкових тенденц╕й;

 

-         сл╕дування останн╕м св╕товим тенденц╕ям.

 

Впровадження ╕ використання системи в Антимонопольному ком╕тет╕ Укра╖ни в╕дбува╓ться на тл╕ р╕зкого розширення ╕нформац╕йного простору, що характеризу╓ться такими особливостями:

 

-         к╕льк╕сть ╕нформац╕╖ в мереж╕ ╤нтернет зб╕льшу╓ться ╕ знайти потр╕бну все складн╕ше (╕нтенсивн╕сть росту шумово╖ ╕нформац╕╖ набагато перевищу╓ ╕нтенсивн╕сть росту ╕нформац╕╖ корисно╖);

 

-         важлив╕ пов╕домлення багаторазово дублюються в в експоненц╕ально зростаюч╕й к╕лькост╕ сайт╕в, у той час, як к╕льк╕сть джерел, що заслуговують на увагу, ростел╕н╕йно;

 

-         перевага обсяг╕в шумово╖ ╕нформац╕╖ обумовлю╓ необх╕дн╕сть п╕дход╕в, аналог╕чних статистичним критер╕ям, що застосовуються при под╕л╕ сигнал╕в та шум╕в;

 

 

-         в╕дф╕льтрування ╕нформац╕╖, що явно дублю╓ться, не створю╓ проблем, однак пов╕домлення, що дублюються за зм╕стом, виявити не так легко, тут на допомогу приходять алгоритми, аналог╕чн╕ алгоритмам побудови ╕нформац╕йних портрет╕в, ╖хнього з╕ставлення, пор╕вняння ╕ статистично╖ оц╕нки (очевидно, що так╕ п╕дходи вимагають дуже великих обчислювальних потужностей при обл╕ку загального росту поток╕в);

 

-         усунення пов╕домлень, що дублюються, в ╕нформац╕йних потоках потр╕бно далеко не завжди (╕сну╓ ряд задач, у яких використову╓ться дублювання текст╕в пов╕домлень з р╕зних джерел, наприклад, при визначенн╕ важливост╕ пов╕домлення).

 

Для прийняття серйозних р╕шень, пов'язаних з анал╕зом ╕ контролем за конкурентним середовищем, рекоменду╓ться використання ╕нтегрованих систем, що дозволяють компонувати та узагальнювати отриману з р╕зних джерел ╕нформац╕ю щодо об'╓кту досл╕джень. Система мон╕торингу новин з мереж╕ ╤нтернет ╓ необх╕дною ланкою для вир╕шення ц╕╓╖ задач╕.

 

У результат╕ накопичення досв╕ду експлуатац╕╖ системи InfoStream визначилися додатков╕ вимоги, реал╕зац╕я яких можлива шляхом:

-         використання баз даних, ╕нформац╕йних пов╕домлень з ретроспективою до 10 рок╕в;

-         впровадження нових метод╕в Text Mining для автоматично╖ класиф╕кац╕╖, групування ╕нформац╕╖, виявлення нових тенденц╕й тощо;

 

-         ╕нтеграц╕╖ ╕нформац╕╖, отримано╖ з мереж╕ ╤нтернет з ╕ншими електронними ╕ друкованими джереламив ╓дин╕й баз╕ даних;

 

-         ╕нтеграц╕╖ повнотекстово╖ бази даних системи InfoStream з базами даних фактограф╕чно╖ ╕нформац╕╖, що дозволить одержувати к╕льк╕сн╕ ╕ як╕сн╕ зр╕зи, як╕ в╕дображають реальну ситуац╕ю на ринках товар╕в ╕ послуг.

 

В Указ╕ Президента Укра╖ни" Про основн╕ напрямки конкурентно╖ пол╕тики на 2002-2004 роки" м╕стяться першочергов╕ завдання щодо зд╕йснення антипонопольнго регулювання ╕ захисту конкуренц╕╖ у п╕дпри╓мницьк╕й д╕яльност╕. Ц╕ складн╕ та в╕дпов╕дальн╕ завдання вимагають серйозно╖ проробки та ╕нформац╕йно╖ п╕дтримки, для забеспечення яко╖ необх╕дна обробка широкого спектру ╕нформац╕йнихджерел, б╕льш╕сть з яких у даний час представлен╕ в мереж╕ ╤нтернет ╕ можуть бути систематизован╕ за допомогою системи InfoStream.