Це
помножить наші можливості Самойленко Вероніка
Олександрівна, директор центру комплексних досліджень з питань антимонопольної політики Ланде Дмитро Володимирович,
к.т.н., заступник директора Інформаційного центру "Електронні вісті" Бородьонков Сергій
Андрійович, керівник проекту Інформаційного центру "Електронні вісті" 1.
Інформаційна підтримка прийняття рішень з
широкого спектрові питань Для
структурних═ підрозділів
Антимонопольного комітету України є досить актуальним пошук додаткових
можливостей отримання інформації, що допомагало б оперативно і якісно
справлятися з величезними обсягами роботи. Дається ═велике навантаження на централізовану систему доступу до═ всесвітньої мережі, а також відсутність
певної програмної оболонки для систематичної обробки інформації і навичок
користування такого роду системами. Рік тому перед
Центром комплексних досліджень з питань антимонопольної політики було
поставлено завдання створити систему, яка б інтегрувала ресурси новин та іншу
інформацію з мережі Інтернет і формувала бази даних у зручній для користувача
формі. Таку розробку Центр комплексних досліджень розпочав разом з відомим у
галузі мережних технологій Інформаційним центром "Електронні вісті".
І сьогодні вже можна говорити про появу готового програмного продукту - InfoStream,- на основі якого можлива
підготовка рішень широкого спектрові завдань, що поставлені перед Комітетом,
таких як: -
аналіз
подій, реакції на заходи, здійснені Комітетом; -
виявлення
тенденцій ринків товарів і послуг; -
здійснення
інформаційного контролеві за дотриманням основ конкурентності; -
оцінка сфер
впливу конфліктних або кризових ситуацій; -
аналіз
діяльності монополістів. 2.
Технологія моніторингу інформаційних
ресурсів мережі Інтернет Система
моніторингу мережних ресурсів InfoStream,
дозволяє забезпечити автоматизований збір інформації з відкритих веб-сайтів,
обробляти, систематизувати, узагальнювати ії. Цю систему вже експериментально
впроваджено в Центрі комплексних досліджень з питань антимонопольної політики в
інтересах Антимонопольного комітету України. За словами англійського психолога доктори Дэвида
Льюіса, "занадто великий обсяг інформації настільки ж небезпечний, як і
занадто малий . Її надлишок може призвести до паралічу аналітичних здібностей,
що ускладнює можливість правильного вибору або ухвалення оптимального
рішення". У другій половині 90-х років було підраховано, що доступний
людству обсяг інформації подвоюється кожні п'ять років. У даний час,
насамперед, завдяки розвиткові мережних технологій, цей період скоротився до 18
місяців. Усе сказане справедливо також для Українського інформаційного
простору. На цей час кількість веб-сайтів в Україні вже перевищує 20 тисяч, а
зріз свіжої інформації становить від 5 до 10 тисяч повідомлень на добу. При
цьому варто враховувати, що постійно росте обсяг легітимної інформації, що
розміщується в Інтернеті державними органами, комерційними структурами. На першому етапі
в запропонованій системі InfoStream редактори-експерти в
автоматизованому режимі оцінюють ресурси і формують профілі, що задовольняють
інформаційні потреби замовника. Потім веб-ресурсы автоматично скануються
відповідно до профілів, відбувається перетворення інформації═ у внутрішній системний формат з додаванням
тегів (дати, часу, імені і типу джерела), спеціально маркується
інформація,═ що дублюється. Відповідно
до заданих параметрів виконується автоматична класифікація═ та завантаження інформації до бази даних.
Служба підготовки й обробки запитів користувачів враховує змістовну частину і
вимоги до регламенту доставки. І нарешті, здійснюється доставка інформації
електронною поштою, або організується персоніфікований доступ клієнтів до
повнотекстової бази даних. ═Технологічним ядром═ InfoStream системи є
повнотекстова інформаційно-пошукова система InfoRes, що забезпечує обробку даних у трьох основних
режимах: -
вибіркового
розповсюдження інформації (ВРІ); -
інтерактивного
доступу до повнотекстових баз даних; -
контент-моніторинга
(╚глибинного аналізу текстів╩ √ Text Mining). ══ У режимі ВРІ═ здійснюється автоматичний пошук і доставка матеріалів заздалегідь
визначеними запитами √ сукупностями ключових слів і логічних операторів. Гнучка
система═ настроювань і фільтрів за
джерелами, країнами, рубриками, датами дозволяє користувачеві═ один раз задати запит═ після чого періодично одержувати═ електронною поштою добірку відповідних
(релевантних) документів. Повнота, оперативність, релевантність═ √ головні характеристики системи. ═══════
═══ У режимі інтерактивного доступу
до баз даних користувач може внести в інтерфейс системи в найпростішому
варіанті власний запит, що═ має,
наприклад, такий вигляд: АМКУ|(АМК~Украины)|(АМК~україни). Даний запит дозволяє
одержати із загальної бази даних═
добірку документів, у яких згадується Комітет. Отримання документів, що
відповідають такому запитові, належить скоріше до загального аналізу подій
та═ заходів і зацікавить,
наприклад,══ прес-службу Комітету. Для
аналізу діяльності учасників ринку за допомогою ═системи InfoStream можна
створити═ тематичні канали, до окремих
повідомлень яких входять назви відповідних фірм, імена та тощо.═ Цей режим орієнтований, насамперед, на═ роботу експертів-аналітиків, які працюють
із═ запитами, що постійно
змінюються.═ Він ідеально підходить для
проведення постійного контролю, наприклад, за конкурентним середовищем, оцінкою
ринків, діловою розвідкою. Для того, щоб уникнути інформаційного
╚перевантаження╩ і═ отримати найбільш
істотні документи необхідної═ тематики,
передбачено режим контент-моніторинга. Тут можна скористатися технологіями
побудови інформаційних портретів, як засобами узагальнення й уточнення запитів,
гістограм динаміки появи═ понять або
автоматичних дайджестів, що реалізують сучасний підхід ╚глибинного аналізу
текстів╩ √ Text Mining. 3. Використання системи InfoStream при аналізі ринків Про важливість моніторингової інформації стану
товарних ринків, і не тільки в контексті реалізації конкурентної політики
свідчить Постанова Кабінету Міністрів України "Про заходи щодо проведення
моніторингу цін і тарифів на споживчому ринку" ╧ 803 від 13 червня 2002
року. Система InfoStream
при аналізі ринків діє у двох основних режимах: вибіркового══ поширення інформації та інтерактивного
(он-лайн) доступу до повнотекстових баз═
даних інформаційних повідомлень. В обох режимах для одержання
результатів необхідно ввести запит, що або зберігається в спеціальній базі
даних для організації передплати, або вводиться у вікно пошуку в режимі
он-лайн. ═При роботі
в "он-лайн" документи у списку результатів пошуку представлено
заголовком, анотацією (першим абзацом), датою і часом надходження, назвою
сайта-джерела і гіперпосиланням на документ-оригінал. Заголовок являє собою
гіперпосилання на текстовий зразок документа. Список результатів пошуку
відсортований по даті і часові √ на перших позиціях представлені═ документи, що надійшли останніми. На одній
екранній сторінці представлена фіксована кількість посилань. Якщо кількість
знайдених документів перевищує 10, виведення списку документів супроводжується
інформаційним портретом у вигляді таблиці з ключовими словами, які відповідають
тематиці запиту та використовуються для його уточнення. При активізації гіперпосилання, що пов'язане із
заголовком документа, відображається його текстовий образ, у якому кольором
виділено слова, які входять до запиту. Текстовий образ документа також містить
назву сайта-джерела та гіперпосилання на документ-оригінал. ══════════ ═════════════ Запити до системи InfoStream вводяться за допомогою
відповідних правил, що в сукупності називаються "мовою запитів". В
"он-лайн" режимі запит вводиться й передається пошуковій системі при
натисканні кнопки "Пошук".
У режимах передплати запити зберігаються адміністратором системи в базі даних. ══════════ Запити складаються з
термів (слів або їхніх правих скорочень) і операторів. Терми √ це слова
природної мови або їхні праві усікання, що складаються, як мінімум, з 2-х
літер. Кожне введене слово сприймається як основа для пошуку, тобто після
введення, наприклад, запиту завод,
можна знайти документи, що містять словоформи: "заводу", "заводити",
"заводи" тощо. При
необхідності знаходження точного входження слова, при введенні запиту варто
додати до слова символ "]",
наприклад: завод]. Система не розрізняє прописних і малих літер, тому для пошукової процедури
запити завод] і Завод] рівнозначні. Словосполучення √ це терми, що складаються з декількох слів. Для пошуку за
словосполученнями використовується спеціальний оператор контекстної близькості ADJ (можливо скорочене написання -
"~"). Оператор контекстної близькості забезпечує добір документів, до яких входять
слова, зв'язані цим оператором. Якщо іншого не вимагається, то ці слова повинні
знаходитися в документах у зазначеній послідовності поруч один з одним═ (між ними також═ відсутні які-небудь інші слова). Існує можливість завдання
відстані між словами в запиті: /0/ -
сусідні слова (якщо іншого не вимагається), /1/ - не більш 1 слова в тексті документа між словами з запиту; /2/ - не більш 2-х слів і т.д.
Наприклад, запит транспорт~/1/нафти
забезпечує перебування документів, до складу яких входять словосполучення "транспортування
нафти" і "транспорт
іранської нафти", у той час, як запит транспорт~нефти дозволить вибрати тільки документ з першим
словосполученням. У системі використовується наступний набір
логічних операторів: -
NOT - логічне НІ, що розуміється як НЕМАЄ; -
AND - логічне І; -
OR - логічне АБО. При вживанні операторів допускається також
їхнє скорочене написання: -
NOT рівнозначне "!" або
"^"; -
AND═ рівнозначне пробілу або "&" або "+"; -
OR═ рівнозначне "|" або "," або ";". Наприклад, запит банк&кредит&україн
рівнозначний запитам банк кредит україн,
банк+кредит+україн і забезпечує
добір документів, до яких входять усі три терми √ банки, кредит, україн. ═══
Запит може бути багаторівневим. Різні рівні визначаються за допомогою
круглих дужок. За допомогою дужок також рекомендується виділяти
терми-словосполучення. Використання
можливостей системи InfoStream для інформаційної підтримки прийняття рішень особливо
ефективне при вивченні стану і тенденцій розвитку ринків товарів та послуг.
Інформаційний центр "Електронні вісті" разом із співробітниками
Центру досліджень і представниками всіх управлінь Комітету провели
заняття-консультації, в результаті яких було сформовано запити, що дозволяють
отримувати повну, різнопланову інформацію щодо ринків нафтопродуктів,
будівельних матеріалів, банківських і страхових послуг, цінних паперів,
облігацій тощо. Аналіз цієї інформації дозволяє максимально оперативно
реагувати на зміни, що відбуваються на ринках, виявляти факти недобросовісної
конкуренції, порушень антимонопольного законодавства, контролювати діяльність
відомих і нових брендів, трейдерів. Наведемо деякі із запитів, що відображають
типові інформаційні потреби окремих Управлінь Комітету.
Наприклад, для одержання інформації з ринку нафтопродуктів в Україні, був використаний запит: (цен | цін | тариф | стимост | вартіст | объем | обсяг | рынок | ринок | рынка | ринку | производ| виробн | добыч | видобут | переработк | переробк | нефтеперер | нафтопер | газоперер | реализац | реаліз | экспорт | импорт | імпорт | нпз | гпз ] )
& (гсм ] | пмм ] | (горюч~смазочн) | (пали~мастильн)
| (дизельн~топлив) | (дизельн~пальн) | бензин | дизтоплив | дизпал| дт ] | дп ] | нефт | нафт |
газ ]═ | газв | газу | масел ] мастил] ═&country.ua Для відстеження
змін на ринку страхування в Україні використовувалася наступна редакція запиту: (ринок | рынок | ринк | рынк | договор | услуг | послуг | операц | страховщ| страхован |
страхуван)] ═| (страх~/2/вклад)
═| (страх~жизн) | (страх~житт)═ | ═(страх~/2/имущ) ═|
(страх~/2/майн) | (страх~прем] ═| (страх~винагород)
═| (страх~систем) | (страх~случ) | (страх~випад) ═| (страх~выплат) | (страх~виплат) | (рын~страхов) ═| (рин~страхув) | (страх~деятель) ═| (страх~діяльн)═ | (страх~защит) | (страх~захист) ═| (вид~страхов) | перестрахован═
| перестрахуван ═| автострах) ═& (украин | україн) Пошук новин ринку
банківських послуг в Україні проводиться за запитом: (банковск ═| банковськ| |bcz]|visa]|eurocard]|mastercard|(american~express)|europay]| (union~card)|(diners~club)|смэп]|смеп]|нсмэп]|нсмеп]
|(пластик~карт)|(плат~карт)|(кредитн~карт)|(корпорат~карт)| (плат~систем)|(электронн~платеж)|(електрон~платіж)| (электронн~/2/перев)|укркарт
| moneygram| банкомат| драгоц| western~union|межбанк) & ((зарпл~про)| вклад | кредит | инвест| інвест | страхован| ставки | ставке |═ рисков ] ризиків | валют| тарифы | тарифи |банк]|банки]| банка]|банках]|банке]|═ банка]| банках ] |банку] |банков] | банків ] | банкам ] | банками & (укра|country.ua) Для селекції
новин про факти недобросовісної конкуренції в Україні використовувався запит: [(недобросов~кокуренц) | (несовістн~кокуренц))&укра Для моніторінгу
публікацій про діяльність Антимонопольного комітету України був використаний
запит: (антимон~/3/укра) | (АМК]~укра) | ═АМКУ ], який дозволяє
одержувати усі новини про Комітет російською та українською мовами. 4. Проблеми і перспективи розвитку системи. Система InfoStream, даючи широкий, повний і
структурований огляд інформаційних ресурсів з Інтернет, забезпечує: -
економію
часу, засобів, людських ресурсів; -
своєчасне
виявлення нових антиконкурентних проявів; -
відстеження
галузевих і ринкових тенденцій; -
слідування
останнім світовим тенденціям. Впровадження і
використання системи в Антимонопольному комітеті України відбувається на тлі різкого
розширення інформаційного простору, що характеризується ═такими особливостями: -
кількість
інформації в мережі Інтернет збільшується і знайти потрібну ═все складніше (інтенсивність росту шумової
інформації набагато перевищує інтенсивність росту інформації корисної); -
важливі
повідомлення багаторазово дублюються в ═в експоненціально зростаючій кількості сайтів, у той час, як
кількість джерел, що заслуговують на увагу, росте═ лінійно; -
перевага
обсягів шумової інформації обумовлює необхідність підходів, аналогічних статистичним
критеріям, що застосовуються при поділі сигналів та шумів; -
відфільтрування
інформації, що явно дублюється, ═не створює
проблем, однак ═повідомлення, що дублюються
за змістом, виявити не так легко, тут на допомогу приходять алгоритми,
аналогічні алгоритмам побудови інформаційних портретів, їхнього зіставлення,
порівняння і статистичної оцінки (очевидно, що такі підходи вимагають дуже
великих обчислювальних потужностей при обліку загального росту ═потоків); -
усунення
повідомлень, що дублюються, в інформаційних потоках потрібно далеко не завжди
(існує ряд задач, у яких використовується ═дублювання текстів повідомлень з різних джерел, наприклад, при
визначенні важливості повідомлення). Для прийняття серйозних рішень, пов'язаних з
аналізом і контролем за конкурентним середовищем, рекомендується використання
інтегрованих систем, що дозволяють компонувати та узагальнювати отриману з
різних джерел інформацію щодо об'єкту досліджень. Система моніторингу новин ═з мережі Інтернет є необхідною ланкою для вирішення
цієї задачі. У результаті накопичення досвіду експлуатації
системи InfoStream визначилися
додаткові вимоги, реалізація яких можлива шляхом: -
використання
баз даних, інформаційних повідомлень з ретроспективою до 10 років; -
впровадження
нових методів Text Mining для автоматичної класифікації, групування інформації,
виявлення нових тенденцій тощо; -
інтеграції
інформації, отриманої з мережі Інтернет з іншими електронними і друкованими
джерелами═ в єдиній базі даних; -
інтеграції
повнотекстової бази даних системи InfoStream
з базами даних фактографічної інформації, що дозволить одержувати кількісні
і якісні зрізи, які відображають реальну ситуацію на ринках товарів і послуг. В Указі Президента України" Про основні напрямки конкурентної політики на 2002-2004 роки" містяться першочергові завдання щодо здійснення антипонопольнго регулювання і захисту конкуренції у підприємницькій діяльності. Ці складні та відповідальні завдання вимагають серйозної проробки та інформаційної підтримки, для забеспечення якої необхідна обробка широкого спектру інформаційних═ джерел, більшість з яких у даний час представлені в мережі Інтернет і можуть бути систематизовані за допомогою системи InfoStream. |