Це помножить наші можливості

 

Самойленко Вероніка Олександрівна,

директор центру комплексних досліджень

з питань антимонопольної політики

Ланде Дмитро Володимирович, к.т.н.,

заступник директора Інформаційного центру "Електронні вісті"

Бородьонков Сергій Андрійович,

керівник проекту Інформаційного центру "Електронні вісті"

 

1.      Інформаційна підтримка прийняття рішень з широкого спектрові питань

 

Для структурнихпідрозділів Антимонопольного комітету України є досить актуальним пошук додаткових можливостей отримання інформації, що допомагало б оперативно і якісно справлятися з величезними обсягами роботи. Дається велике навантаження на централізовану систему доступу довсесвітньої мережі, а також відсутність певної програмної оболонки для систематичної обробки інформації і навичок користування такого роду системами.

 

Рік тому перед Центром комплексних досліджень з питань антимонопольної політики було поставлено завдання створити систему, яка б інтегрувала ресурси новин та іншу інформацію з мережі Інтернет і формувала бази даних у зручній для користувача формі. Таку розробку Центр комплексних досліджень розпочав разом з відомим у галузі мережних технологій Інформаційним центром "Електронні вісті". І сьогодні вже можна говорити про появу готового програмного продукту - InfoStream,- на основі якого можлива підготовка рішень широкого спектрові завдань, що поставлені перед Комітетом, таких як:

-         аналіз подій, реакції на заходи, здійснені Комітетом;

-         виявлення тенденцій ринків товарів і послуг;

-         здійснення інформаційного контролеві за дотриманням основ конкурентності;

-         оцінка сфер впливу конфліктних або кризових ситуацій;

-          аналіз діяльності монополістів.

 

2.      Технологія моніторингу інформаційних ресурсів мережі Інтернет

 

Система моніторингу мережних ресурсів InfoStream, дозволяє забезпечити автоматизований збір інформації з відкритих веб-сайтів, обробляти, систематизувати, узагальнювати ії. Цю систему вже експериментально впроваджено в Центрі комплексних досліджень з питань антимонопольної політики в інтересах Антимонопольного комітету України.

 

За словами англійського психолога доктори Дэвида Льюіса, "занадто великий обсяг інформації настільки ж небезпечний, як і занадто малий . Її надлишок може призвести до паралічу аналітичних здібностей, що ускладнює можливість правильного вибору або ухвалення оптимального рішення". У другій половині 90-х років було підраховано, що доступний людству обсяг інформації подвоюється кожні п'ять років. У даний час, насамперед, завдяки розвиткові мережних технологій, цей період скоротився до 18 місяців. Усе сказане справедливо також для Українського інформаційного простору. На цей час кількість веб-сайтів в Україні вже перевищує 20 тисяч, а зріз свіжої інформації становить від 5 до 10 тисяч повідомлень на добу. При цьому варто враховувати, що постійно росте обсяг легітимної інформації, що розміщується в Інтернеті державними органами, комерційними структурами.

 

На першому етапі в запропонованій системі InfoStream редактори-експерти в автоматизованому режимі оцінюють ресурси і формують профілі, що задовольняють інформаційні потреби замовника. Потім веб-ресурсы автоматично скануються відповідно до профілів, відбувається перетворення інформаціїу внутрішній системний формат з додаванням тегів (дати, часу, імені і типу джерела), спеціально маркується інформація,що дублюється. Відповідно до заданих параметрів виконується автоматична класифікаціята завантаження інформації до бази даних. Служба підготовки й обробки запитів користувачів враховує змістовну частину і вимоги до регламенту доставки. І нарешті, здійснюється доставка інформації електронною поштою, або організується персоніфікований доступ клієнтів до повнотекстової бази даних.

 

Технологічним ядромInfoStream системи є повнотекстова інформаційно-пошукова система InfoRes, що забезпечує обробку даних у трьох основних режимах:

 

-         вибіркового розповсюдження інформації (ВРІ);

 

-         інтерактивного доступу до повнотекстових баз даних;

 

-         контент-моніторинга (╚глибинного аналізу текстів╩ √ Text Mining).

 

══ У режимі ВРІздійснюється автоматичний пошук і доставка матеріалів заздалегідь визначеними запитами √ сукупностями ключових слів і логічних операторів. Гнучка системанастроювань і фільтрів за джерелами, країнами, рубриками, датами дозволяє користувачевіодин раз задати запитпісля чого періодично одержуватиелектронною поштою добірку відповідних (релевантних) документів. Повнота, оперативність, релевантність√ головні характеристики системи.

 

═══════ ═══ У режимі інтерактивного доступу до баз даних користувач може внести в інтерфейс системи в найпростішому варіанті власний запит, щомає, наприклад, такий вигляд: АМКУ|(АМК~Украины)|(АМК~україни). Даний запит дозволяє одержати із загальної бази данихдобірку документів, у яких згадується Комітет. Отримання документів, що відповідають такому запитові, належить скоріше до загального аналізу подій тазаходів і зацікавить, наприклад,══ прес-службу Комітету. Для аналізу діяльності учасників ринку за допомогою системи InfoStream можна створититематичні канали, до окремих повідомлень яких входять назви відповідних фірм, імена та тощо.Цей режим орієнтований, насамперед, нароботу експертів-аналітиків, які працюють іззапитами, що постійно змінюються.Він ідеально підходить для проведення постійного контролю, наприклад, за конкурентним середовищем, оцінкою ринків, діловою розвідкою.

 

Для того, щоб уникнути інформаційного ╚перевантаження╩ іотримати найбільш істотні документи необхідноїтематики, передбачено режим контент-моніторинга. Тут можна скористатися технологіями побудови інформаційних портретів, як засобами узагальнення й уточнення запитів, гістограм динаміки появипонять або автоматичних дайджестів, що реалізують сучасний підхід ╚глибинного аналізу текстів╩ √ Text Mining.

 

3. Використання системи InfoStream при аналізі ринків

 

Про важливість моніторингової інформації стану товарних ринків, і не тільки в контексті реалізації конкурентної політики свідчить Постанова Кабінету Міністрів України "Про заходи щодо проведення моніторингу цін і тарифів на споживчому ринку" ╧ 803 від 13 червня 2002 року.

 

Система InfoStream при аналізі ринків діє у двох основних режимах: вибіркового══ поширення інформації та інтерактивного (он-лайн) доступу до повнотекстових базданих інформаційних повідомлень. В обох режимах для одержання результатів необхідно ввести запит, що або зберігається в спеціальній базі даних для організації передплати, або вводиться у вікно пошуку в режимі он-лайн.

 

При роботі в "он-лайн" документи у списку результатів пошуку представлено заголовком, анотацією (першим абзацом), датою і часом надходження, назвою сайта-джерела і гіперпосиланням на документ-оригінал. Заголовок являє собою гіперпосилання на текстовий зразок документа. Список результатів пошуку відсортований по даті і часові √ на перших позиціях представленідокументи, що надійшли останніми. На одній екранній сторінці представлена фіксована кількість посилань. Якщо кількість знайдених документів перевищує 10, виведення списку документів супроводжується інформаційним портретом у вигляді таблиці з ключовими словами, які відповідають тематиці запиту та використовуються для його уточнення.

 

При активізації гіперпосилання, що пов'язане із заголовком документа, відображається його текстовий образ, у якому кольором виділено слова, які входять до запиту. Текстовий образ документа також містить назву сайта-джерела та гіперпосилання на документ-оригінал.

══════════

═════════════ Запити до системи InfoStream вводяться за допомогою відповідних правил, що в сукупності називаються "мовою запитів". В "он-лайн" режимі запит вводиться й передається пошуковій системі при натисканні кнопки "Пошук". У режимах передплати запити зберігаються адміністратором системи в базі даних.

 

══════════ Запити складаються з термів (слів або їхніх правих скорочень) і операторів. Терми √ це слова природної мови або їхні праві усікання, що складаються, як мінімум, з 2-х літер. Кожне введене слово сприймається як основа для пошуку, тобто після введення, наприклад, запиту завод, можна знайти документи, що містять словоформи: "заводу", "заводити", "заводи" тощо. При необхідності знаходження точного входження слова, при введенні запиту варто додати до слова символ "]", наприклад: завод].

 

Система не розрізняє прописних і малих літер, тому для пошукової процедури запити завод] і Завод] рівнозначні.

 

Словосполучення √ це терми, що складаються з декількох слів. Для пошуку за словосполученнями використовується спеціальний оператор контекстної близькості ADJ (можливо скорочене написання - "~").

Оператор контекстної близькості забезпечує добір документів, до яких входять слова, зв'язані цим оператором. Якщо іншого не вимагається, то ці слова повинні знаходитися в документах у зазначеній послідовності поруч один з одним(між ними такожвідсутні які-небудь інші слова). Існує можливість завдання відстані між словами в запиті: /0/ - сусідні слова (якщо іншого не вимагається), /1/ - не більш 1 слова в тексті документа між словами з запиту; /2/ - не більш 2-х слів і т.д. Наприклад, запит транспорт~/1/нафти забезпечує перебування документів, до складу яких входять словосполучення "транспортування нафти" і "транспорт іранської нафти", у той час, як запит транспорт~нефти дозволить вибрати тільки документ з першим словосполученням.

 

У системі використовується наступний набір логічних операторів:

-        NOT - логічне НІ, що розуміється як НЕМАЄ;

-        AND - логічне І;

-        OR - логічне АБО.

При вживанні операторів допускається також їхнє скорочене написання:

-        NOT рівнозначне "!" або "^";

-        ANDрівнозначне пробілу або "&" або "+";

-        ORрівнозначне "|" або "," або ";".

 

Наприклад, запит банк&кредит&україн рівнозначний запитам банк кредит україн, банк+кредит+україн і забезпечує добір документів, до яких входять усі три терми √ банки, кредит, україн.

 

═══ Запит може бути багаторівневим. Різні рівні визначаються за допомогою круглих дужок. За допомогою дужок також рекомендується виділяти терми-словосполучення.

 

Використання можливостей системи InfoStream для інформаційної підтримки прийняття рішень особливо ефективне при вивченні стану і тенденцій розвитку ринків товарів та послуг. Інформаційний центр "Електронні вісті" разом із співробітниками Центру досліджень і представниками всіх управлінь Комітету провели заняття-консультації, в результаті яких було сформовано запити, що дозволяють отримувати повну, різнопланову інформацію щодо ринків нафтопродуктів, будівельних матеріалів, банківських і страхових послуг, цінних паперів, облігацій тощо. Аналіз цієї інформації дозволяє максимально оперативно реагувати на зміни, що відбуваються на ринках, виявляти факти недобросовісної конкуренції, порушень антимонопольного законодавства, контролювати діяльність відомих і нових брендів, трейдерів. Наведемо деякі із запитів, що відображають типові інформаційні потреби окремих Управлінь Комітету.

 

Наприклад, для одержання інформації з ринку нафтопродуктів в Україні, був використаний запит:

 

(цен | цін | тариф | стимост | вартіст | объем |

обсяг | рынок | ринок | рынка | ринку | производ|

виробн | добыч | видобут | переработк | переробк |

нефтеперер | нафтопер | газоперер | реализац |

реаліз | экспорт | импорт | імпорт | нпз | гпз ] )

&

(гсм ] | пмм ] | (горюч~смазочн) | (пали~мастильн) |

(дизельн~топлив) | (дизельн~пальн) | бензин |

дизтоплив | дизпал| дт ] | дп ] | нефт | нафт | газ ]|

газв | газу | масел ] мастил]

&country.ua

 

Для відстеження змін на ринку страхування в Україні використовувалася наступна редакція запиту:

 

(ринок | рынок | ринк | рынк | договор | услуг |

послуг | операц | страховщ| страхован | страхуван)]

| (страх~/2/вклад) | (страх~жизн) | (страх~житт)|

(страх~/2/имущ) | (страх~/2/майн) | (страх~прем]

| (страх~винагород) | (страх~систем) | (страх~случ) |

(страх~випад) | (страх~выплат) | (страх~виплат) |

ын~страхов) | (рин~страхув) | (страх~деятель)

| (страх~діяльн)| (страх~защит) | (страх~захист)

| (вид~страхов) | перестрахован| перестрахуван | автострах)

&

(украин | україн)

 

Пошук новин ринку банківських послуг в Україні проводиться за запитом:

 

(банковск | банковськ| |bcz]|visa]|eurocard]|mastercard|(american~express)|europay]|

(union~card)|(diners~club)|смэп]|смеп]|нсмэп]|нсмеп] |(пластик~карт)|(плат~карт)|(кредитн~карт)|(корпорат~карт)|

(плат~систем)|(электронн~платеж)|(електрон~платіж)|

(электронн~/2/перев)|укркарт | moneygram| банкомат| драгоц|

western~union|межбанк)

&

((зарпл~про)| вклад | кредит | инвест| інвест | страхован| ставки | ставке |рисков ] ризиків | валют| тарифы | тарифи |банк]|банки]| банка]|банках]|банке]|банка]| банках ] |банку] |банков] | банків ] | банкам ] | банками

&

(укра|country.ua)

 

 

Для селекції новин про факти недобросовісної конкуренції в Україні використовувався запит:

[(недобросов~кокуренц) | (несовістн~кокуренц))&укра

 

Для моніторінгу публікацій про діяльність Антимонопольного комітету України був використаний запит:

(антимон~/3/укра) | (АМК]~укра) | АМКУ ],

який дозволяє одержувати усі новини про Комітет російською та українською мовами.

 

 

4. Проблеми і перспективи розвитку системи.

 

Система InfoStream, даючи широкий, повний і структурований огляд інформаційних ресурсів з Інтернет, забезпечує:

 

-         економію часу, засобів, людських ресурсів;

 

-         своєчасне виявлення нових антиконкурентних проявів;

 

-         відстеження галузевих і ринкових тенденцій;

 

-         слідування останнім світовим тенденціям.

 

Впровадження і використання системи в Антимонопольному комітеті України відбувається на тлі різкого розширення інформаційного простору, що характеризується такими особливостями:

 

-         кількість інформації в мережі Інтернет збільшується і знайти потрібну все складніше (інтенсивність росту шумової інформації набагато перевищує інтенсивність росту інформації корисної);

 

-         важливі повідомлення багаторазово дублюються в в експоненціально зростаючій кількості сайтів, у той час, як кількість джерел, що заслуговують на увагу, ростелінійно;

 

-         перевага обсягів шумової інформації обумовлює необхідність підходів, аналогічних статистичним критеріям, що застосовуються при поділі сигналів та шумів;

 

 

-         відфільтрування інформації, що явно дублюється, не створює проблем, однак повідомлення, що дублюються за змістом, виявити не так легко, тут на допомогу приходять алгоритми, аналогічні алгоритмам побудови інформаційних портретів, їхнього зіставлення, порівняння і статистичної оцінки (очевидно, що такі підходи вимагають дуже великих обчислювальних потужностей при обліку загального росту потоків);

 

-         усунення повідомлень, що дублюються, в інформаційних потоках потрібно далеко не завжди (існує ряд задач, у яких використовується дублювання текстів повідомлень з різних джерел, наприклад, при визначенні важливості повідомлення).

 

Для прийняття серйозних рішень, пов'язаних з аналізом і контролем за конкурентним середовищем, рекомендується використання інтегрованих систем, що дозволяють компонувати та узагальнювати отриману з різних джерел інформацію щодо об'єкту досліджень. Система моніторингу новин з мережі Інтернет є необхідною ланкою для вирішення цієї задачі.

 

У результаті накопичення досвіду експлуатації системи InfoStream визначилися додаткові вимоги, реалізація яких можлива шляхом:

-         використання баз даних, інформаційних повідомлень з ретроспективою до 10 років;

-         впровадження нових методів Text Mining для автоматичної класифікації, групування інформації, виявлення нових тенденцій тощо;

 

-         інтеграції інформації, отриманої з мережі Інтернет з іншими електронними і друкованими джереламив єдиній базі даних;

 

-         інтеграції повнотекстової бази даних системи InfoStream з базами даних фактографічної інформації, що дозволить одержувати кількісні і якісні зрізи, які відображають реальну ситуацію на ринках товарів і послуг.

 

В Указі Президента України" Про основні напрямки конкурентної політики на 2002-2004 роки" містяться першочергові завдання щодо здійснення антипонопольнго регулювання і захисту конкуренції у підприємницькій діяльності. Ці складні та відповідальні завдання вимагають серйозної проробки та інформаційної підтримки, для забеспечення якої необхідна обробка широкого спектру інформаційнихджерел, більшість з яких у даний час представлені в мережі Інтернет і можуть бути систематизовані за допомогою системи InfoStream.