|
Системы мониторинга Internet-контента
Дмитрий Ландэ, к.т.н.,
Сегодня, когда объем информационных ресурсов WWW превышает восемь млрд. страниц, когда сеть Internet превратилась во всемирную медиа-среду, она становится одним из самых важных и доступных источников информации. Быстрый прогресс развития Сети порождает целый ряд сложных и важных проблем, среди которых значительное место занимает проблема нахождения в Internet новостной информации по необходимой тематике. В то же время, по экспертным оценкам количество новостной информации только в украинском и российском сегментах Internet превышает 20 тысяч сообщений в сутки. Ориентация в новостной информации с помощью традиционных информационно-поисковых систем весьма затруднительна, так как периоды индексации у таких систем доходят до полугода. Например, система AltaVista в 2001 году не обновляла ни один из региональных индексов и даже главную базу данных в течение нескольких месяцев. Вместе с тем часть базы данных системы AltaVista совсем недавно индексировалась оперативнее, чем даже у Google. Только те сайты, за индексацию которых были заплачены деньги, были проиндексированы в базе данных AltaVista вовремя. Несмотря на то, что практически все известные поисковые порталы (Yahoo, AltaVista, Lycos, Excite и др.) имеют новостные разделы (NewsRoom, NewsBot, NewsWires и т.д.), они зачастую уже не удовлетворяют потребностям профессионалов-информационщиков. При этом никто не отрицает факта, что работа с открытыми источниками позволяет решать практически любые информационные задачи, являясь наиболее эффективным способом формирования информационной среды по различным направлениям. Но факт наличия информации в открытых источниках имеет значение лишь при возможности эффективного доступа к ней. Вместе с тем, традиционным подходам присущи такие недостатки, как недостаточная оперативность, зависимость от выбора источников и узость спектра этих источников, слабые поисковые возможности, отсутствие средств уведомления о появлении новой информации, слабая зацита компьютерной информации. Оптимальное решение задачи ориентации в новостной информации из Internet в настоящее время предоставляют информационные сетевые службы нового типа - сетевые интеграторы новостей, которые сегодня чаще всего используют системы мониторинга новостей в Web-пространстве как базу для своей работы. Технология мониторинга и последующей синдикации Internet-новостей подразумевает такие основные этапы, как "обучение" программ сбора информации структуре выбранных источников, сканирование информации, ее нормирование, приведение к внутрисистемному формату (в последнее время все чаще к XML), классификация, кластеризация, доставка пользователям различными каналами (e-mail, WWW, Wap, SMS, другие приложения). В качестве приложений могут выступать ставшие уже традиционными полнотекстовые информационно-поисковые системы, а также системы контент-анализа, автоматического выявления смысла. Остановимся подробнее на некоторых системах мониторинга Intertnet-новостей.
Информационное агентство "Интегрум"
Российское информационное агентство "Интегрум" (служба Integrum.com) обеспечивает сбор электронных версий информационных продуктов разнообразных информационных источников и интегрирует их в единый массив, доступный клиентам службы в сети Internet на Web-сайте www.integrum.com. Integrum.com сегодня - это крупнейшая в России интегрированная служба информационных ресурсов, содержащая коммерческую, статистическую и новостную информацию. Контент-механизмом, технологической основной службы Integrum.com является лингвистическая информационно-поисковая система "Артефакт", основанная на сложных морфологичесих алгоритмах и являющаяся авторской разработкой службы. В 2700 базх данных службы сагрегировано 75.000.000 документов. Поток новых документов составляет 10.000 в сутки. Компанией "Интегрум" несколько лет назад был разработан сервис под названием "Частный информационный агент" (см. рис. 3), который позволяет осуществлять поиск и доставку материалов подписчику по заданным им ключевым словам. Сервис имеет развитую систему настроек по контексту и источникам информации. Каждый запрос обрабатывается системой "Артефакт" от одного до трех раз в сутки. В результате выбираются предварительно загруженные в базу данных документы, соответствующие запросам, которые высылаются пользователям по электронной почте. В настоящее время компанией "Интегрум" зарегистрировано несколько торговых знаков, среди которых можно выделить особо INTEGRUM-TELETYPEФ и Персональная газетаФ. INTEGRUM-TELETYPEФ позволяет пользователям службы просматривать новостные ленты информационных агентств в режиме реального времени. Новостные ленты текущего дня, получаемые от 28 российских и зарубежных информационных агентств снабжены системой доступа к документам. Персональная газетаTM позволяет клиенту вести круглосуточный мониторинг по любой проблематике. Персональная газетаTM - это программный робот (агент), осуществляющий автоматический поиск и доставку материалов пользователю по заданным им ключевым словам (т.е. по технологии агентов новостей).
Яндекс
Как и для американских информационно-поисковых порталов, необходимость интеграции динамичного новостного контента стала насущной проблемой и для аналогичных российских служб. Известный поисковый портал "Яндекс" открыл проект "Яндекс.Новости", к которому в настоящее время присоединились свыше 50 Internet-изданий. На сегодняшний день информационное сотрудничество осуществляется на следующих принципах и условиях: проект "Яндекс.Новости" размещает заголовки материалов со ссылкой на сервер партнера в базе поиска новостей, а информационные партнеры размещают на своем сервере рекламу проекта "Яндекс.Новости". Все новости у службы "Яндекс.Новости" рассортированы по разделам. Пользователь системы может задать детализированный запрос, выбрав одну или несколько категорий новостей и информационных источников, временной период или новости, наиболее близкие друг другу по смыслу (по релевантности). Служба "Яндекс.Новости" предоставляет возможность свободной тематической рассылки новостей.
WebScan
Технология WebScan позволяет собирать необходимые данные для проведения регулярных исследований информационного наполнения Internet. Компания WebScan Technologies предлагает аналитические продукты, среди которых анализ информационной активности компании в Internet. Это исследование позволяет оперативно отслеживать количественные и качественные характеристики информационной активности определенной компании. Ежемесячный отчет включает в себя результаты анализа по количеству упоминаний, по охвату сетевых ресурсов, по охвату аудитории. На основе контекста упоминаний проводится диагностика имиджа компании. Анализ эффективности PR-кампании в Internet основывается на оценках эффективности регулярной PR-поддержки компании или разовой PR-акции в сети Internet по различным параметрам: количеству упоминаний, по охвату Интернет-ресурсов, по охвату аудитории, по экономическим показателям. Оценка присутствия рынка в сети производится на основании исследований уровня информационной активности ведущих игроков ряда рынков - рынка Интернет-провайдеров, системных интеграторов, операторов сотовой связи и т.д.
RunetNews
Проект RunetNews является по-сути каталогом динамической новостной информации в русcкоязычной части Internet. Основное отличие RunetNews от обычных сетевых каталогов заключается в том, что с зарегистрированных в каталоге ресурсов осуществляется автоматичесий сбор новостей. Каталог хранит не более 4-х новостей с каждого зарегистрированного ресурса, все новости старше 90 дней автоматически удаляются из базы данных каталога. RunetNews поддерживает внутренний поиск информации по своей базе, которая имеет два режима: поиск по сайтам (их описаниям) и поиск по новостям. Поиск работает одновременно по всем разделам каталога. RunetNews имеет собственный рейтинг, который определяется исходя из частоты обновления конкретного ресурса.
Технология InfoStream Технология InfoStream разработана для решения задач автоматизированного сбора информации с Web-сайтов сети Internet, ее обработки, систематизации, обобщения и обеспечения доступа к ней.
InfoStream позволяет автоматически сканировать доступные информационные ресурсы сети Internet и корпоративных интранет-сетей. При этом обеспечивается сканирование статических и динамических Web-ресурсов, конвертирование информации, а также предотвращение ее дублирования. Средства классификации и распределения информации системы представляют собой информационно-поисковую систему избирательного распространения информации. Информационные документы, поступающие в систему, анализируются на соответствие поисковым запросам. Релевантные документы классифицируются и рассылаются пользователям. Основой комплекса интерактивного доступа к базам данных является программно-технологическое обеспечение создания баз данных, которые содержат полнотекстовые документы и доступа к этим базам данных. Комплекс контент-мониторинга обеспечивает формирование тематических информационных каналов, тематических дайджестов, таблиц взаимосвязей понятий и гистограмм распределения весовых значений отдельных понятий. Текстовые отчеты комплекса контент-мониторинга основываются на методах автоматического реферирования текстов, и их практическим выходом являются тематические дайджесты, представляющие собой соответственно оформленные сгруппированные совокупности наиболее весомых информационных материалов или их частей. Статистические модули контент-мониторинга в технологии InfoStream позволяют формировать таблицы и гистограммы распределения весов отдельных понятий во времени, в различных тематических и видовых разрезах, а также эффективно выявлять взаимосвязи и взаимное влияние отдельных понятий. По сравнению с традиционными технологиями обработки информации из Internet современные системы мониторинга и интеграции новостей обеспечивают ряд преимуществ:
Благодаря таким характеристикам, как оперативность, полнота и релевантность, а также наличию защищенных интерфейсов, внедрение современных систем мониторинга новостной информации способствует повышению оперативности и качества информационно-аналитической работы во многих сферах бизнеса и управления. Вместе с тем, системы мониторинга Internet-новостей решают лишь одну часть проблемы информационного обеспечения. Последующая синдикация информации, ее обработка и анализ, сегодня также включается в такие системы. Одним из самых перспективных направлений обобщения информационных потоков в настоящее время является контент-мониторинг, идею которого в простейшем виде можно сформулировать как постоянное, воспроизводимое во времени выполнение узко очерченного своими задачами контент-анализа непрерывных информационных потоков. Подчеркнем, что именно непрерывное воспроизведение во времени процесса обработки входных данных является самой характерной чертой контент-мониторинга. Собственно контент-анализ выступает тут как методологическая составляющая, однако контент-мониторинг имеет собственную проблематику и собственные пути решения прикладных задач. К предпосылкам появления систем контент-мониторинга относятся:
Пожалуй лишь две последних технологических предпосылки можно условно назвать "новинками". Что же тогда можно считать действительными причинами достаточно большой задержки широкого внедрения подобных систем сегодня? Групп причин несколько: социальная, технологическая и экономическая. К социальным причинам можно отнести желание определенных кругов в разных странах монополизировать контент-исследования (прежде всего, политические). Технологические причины более очевидны - только в последние годы объем электронных новостных сообщений достиг критической массы, покрывающей практически все традиционные печатные СМИ. Например, объем украинских Internet-новостей превосходит 5000 в сутки. Экономические причины также понятны - стоимость развитых систем контент-мониторинга составляет десятки и сотни тысяч долларов и доступна далеко не всем экспертным центрам (речь не идет об элементарных агентах новостей и ставших уже историей push-каналах). |
|