Об отделении зерен от плевел

N33(256)/25.08.2003

Дмитрий ЛАНДЭ,
к.т.н., заместитель директора
Информационного центра "ЭЛВИСТИ"

Сегодня, когда сеть Интернет превратилась во всемирную медиа-среду, она становится одним из самых важных и доступных источников информации. По экспертным оценкам, количество новостей только в украинском и российском сегментах Интернета превышает 20 тысяч сообщений в сутки. Ориентация в информации такого типа с помощью традиционных поисковых систем весьма затруднительна, так как периоды индексации у них составляют от недели до нескольких месяцев. Несмотря на то, что практически все известные поисковые порталы (Google, Yahoo!, AltaVista, Alltheweb и др.) имеют новостные разделы, они зачастую уже не устраивают не только профессионалов, но и обычных пользователей.

Уже никто не отрицает факта, что работа с открытыми источниками является наиболее эффективным способом формирования информационной среды по различным тематикам и направлениям. Однако само наличие данных может помочь пользователю лишь при возможности эффективного доступа к ним. Вместе с тем, традиционным подходам к организации поиска сетевой информации присущи такие недостатки, как низкая оперативность, зависимость от выбора источников и ограниченность спектра этих источников, средние поисковые возможности, отсутствие средств уведомления о появлении новых данных, слабая защита компьютерной информации. Оптимальное решение, способное помочь ориентироваться в новостной информации из Интернета, в настоящее время предоставляют информационные службы нового типа — системы мониторинга (интеграторы) новостей в web-пространстве.

Технология мониторинга и последующей синдикации интернет-новостей подразумевает такие основные этапы, как "обучение" программ сбора информации структуре выбранных источников, сканирование информации, ее нормирование, приведение к внутрисистемному формату (в последнее время все чаще к XML), классификация, кластеризация, доставка пользователям различными каналами: e-mail, WWW, Wap, SMS, другие приложения. В качестве таких приложений могут выступать, например, ставшие уже традиционными полнотекстовые поисковые системы, а также системы контент-анализа и "глубинного анализа текстов" (Text Mining), используемые для автоматического выявления смысла в текстах.

В этой статье мы остановимся лишь на некоторых системах мониторинга интернет-новостей.

Мoreover

http://www.moreover.com

Для интеграции релевантного (соответствующего запросам) полного контента в корпоративные сети или порталы служба Moreover использует патентованное решение — Connected Intelligence. Передача осуществляется порциями от 5500 источников в режиме реального времени, классифицируется и разделяется по темам, обновляется каждые 15 минут (35 тысяч документов в сутки). Возможна адресная доставка информации (CI-Watch) и организация режима доступа (CI-Database) к компактному обзору непрерывно индексируемой полнотекстовой базы данных. Эти сведения могут также интегрироваться клиентом в корпоративную сеть, на портал, сайт или передаваться программному приложению.

На сайте Moreover содержатся сведения о технологических подходах к интеграции новостей, которые были созданы в этой службе и де-факто стали стандартами в системах мониторинга. В соответствии с этими разработками реализуется следующая технологическая цепочка: сначала выполняется оценка информационного содержания web-ресурса и построение настроечных профилей, описывающих данный ресурс. Редакторы в автоматизированном режиме оценивают ресурсы и формируют профили, удовлетворяющие информационным потребностям клиентов. Затем web-ресурсы автоматически сканируются в соответствии с профилями, происходит преобразование информации в формат XML с добавлением тегов (даты, времени, имени и типа источника). Ищутся повторы и устраняется дублирование. В соответствии с заданными правилами выполняется автоматическая классификация информации и загрузка ее в базы данных. Служба обработки запросов учитывает содержательную часть и требования к регламенту доставки. На последнем этапе происходит вывод и доставка информации клиентам на их web-сайты, в интранет-сети, на входы различных программных приложений.

Google

http://news.google.com

В 2002 году популярная система интернет-поиска Google запустила свой новостной сервис — Google News, который интегрирует информацию с 4500 различных сайтов. Данные рассортированы по нескольким категориям, таким как международные новости, деловой мир, шоу-бизнес, технологии и спорт. "Новости — естественное продолжение нашей миссии", — заявил представитель компании Марисса Майер. Новости в системе отбираются в зависимости от времени их публикации, популярности источника информации и количества статей, появившихся в Интернете, на данную тему.

В ближайшее время компания Google собирается предложить новый вид услуг корпоративным клиентам — рассылку пакетов новостей для использования в аналитических целях и распространения по внутренним сетям.

NewsIsFree

http://www.newsisfree.com

Одна из самых перспективных в Сети служб интеграции новостей NewsIsFree охватывает около 6000 источников (в том числе и несколько десятков российских и украинских). Все новости группируются по 15 основным категориям, которые в свою очередь подразделяются на подкатегории. Примечательно, что режим поиска не представлен в системе в явном виде. Основная особенность службы NewsIsFree — это полная интеграция с XML, в частности с RSS. Примечательно, что служба именует себя агрегатором новостей — так обычно называются программы, обеспечивающие доставку новостной информации непосредственно пользователем. Большинство разделов сайта службы содержат ссылки Syndicate, активизация которых приводит к отображению кода разделов в формате XML. Служба NewsIsFree, как и программа-агрегатор, позволяет группировать публикации из различных источников, давая возможность одновременно отслеживать появление новостей на всех сайтах без захода на каждый ресурс в отдельности. При этом, конечно же, не требуется загружать из Интернета лишней информации, относящейся, например, к оформлению web-страниц. Дизайн web-страниц службы NewsIsFree также максимально приближен к концепции XML — элементы оформления как таковые практически отсутствуют :-).

Информационное агентство "Интегрум"

http://www.integrum.ru

Крупнейшее в России агентство по интеграции новостей Интегрум (http://www.integrum.ru) обеспечивает собирание в единый массив электронных версий коммерческих, статистических и новостных информационных продуктов.

Контент-механизмом службы является авторской разработкой агентства — это лингвистическая поисковая система Артефакт, основанная на сложных морфологических алгоритмах. В 3800 базах данных службы сагрегировано 170 млн. документов, ежесуточно пополняющихся на 10 тыс. документов. Сервис Персональная газета заключается в создании запросов-роботов, осуществляющих автоматический поиск и доставку материалов подписчику по заданным ими ключевым словам. Сервис имеет развитую систему настроек по контексту и источникам информации. Каждый запрос обрабатывается системой Артефакт от одного до трех раз в сутки. В результате выбираются предварительно загруженные в базу данных документы, соответствующие запросам, которые высылаются пользователям по электронной почте.

Яндекс

http://news.yandex.ru

Как и для американских информационно-поисковых порталов, необходимость интеграции динамичного новостного контента стала насущной проблемой и для аналогичных российских служб. Известный поисковый портал "Яндекс" открыл проект Яндекс.Новости, к которому в настоящее время присоединились около 130 интернет-изданий. Главной особенностью "Яндекс.Новости" как открытого публичного сервиса является наличие тем, которые объединяют содержательно близкие новости с различных сайтов. Для сбора новостей используется формат RSS 2.0 (Realy Simple Syndication), позволяющий прилагать к ним дополнительную информацию, в том числе и мультимедийную.

Посетитель "Яндекс.Новостей" может воспользоваться тематическими разделами (все полученные новости группируются по десяти рубрикам), а также подписаться на новости определенной тематики или соответствующие конкретному поисковому запросу. Поиск новостей возможен как по всем источникам, так и по заданным пользователем. Имеется также возможность поиска за произвольный период времени.

Технология InfoStream

http://infostream.com.ua

Технология InfoStream предназначена для автоматизированного сбора информации с сайтов, ее обработки, систематизации, обобщения и обеспечения доступа к ней. Ядром системы обработки контента является полнотекстовая информационно-поисковая система InfoReS, обеспечивающая обработку данных в трех основных режимах:

избирательного распространения;

интерактивного доступа к полнотекстовым базам данных;

контент-мониторинга.

Если пользователь хочет получать новостную информацию по интересующей тематике (она определяется на языке запросов с помощью ключевых слов, логических операторов, операторов контекстной близости и скобок) по e-mail, SMS или встроить постоянную подборку в свою веб-страницу, то к его услугам сервис InfoStream Сlient. Персонализация интерфейса пользователей, работающих в режиме онлайн, то есть сохранение их постоянных запросов и организация подписки, реализуется на основе современной технологии RSS (этот формат данных и технический стандарт обеспечивает интегрированный доступ к новостной информации на web-сайтах).

Сегодня системой InfoStream охватывается ежедневно свыше 20 000 документов из более чем 500 информационных источников, перечень которых постоянно изменяется. Количество этих источников постоянно растет. Сведения о новых информационных источниках поступают как непосредственно от разработчика, так и от пользователей сервисов InfoStream. В результате реализуется эффективный механизм обратной связи между службой сопровождения системы и пользователями.

WAP-портал холдинга UAport (http://wap.uaport.net) через InfoStream-шлюз обеспечивает просмотр на экране мобильного телефона новостей с десятков веб-сайтов. Они сгруппированы по тематикам, странам, источникам. Это еще один из возможных вариантов доставки информации.

Итак, InfoStream Port. Это впервые созданное в Украине аппаратно-программное решение является реализацией новостного поискового сервера, предназначенного для информационного обеспечения компаний разного уровня. Информационное обеспечение InfoStream Port базируется на использовании информационного хранилища, формируемого на технической площадке ElVisti в результате ряда технологических операций:

сбор информации в Интернете;

нормализация информации, приведение ее к единому формату;

автоматическая классификация информации;

помещение данных в информационное хранилище;

предоставление санкционированного доступа к информационному хранилищу.

Использование InfoStream Port обеспечивает:

существенную экономию интернет-трафика;

формирование и хранение ретроспективных баз данных практически неограниченных объемов;

интерактивный доступ корпоративных пользователей к базам данных;

комфортную работу пользователей с неограниченного количества рабочих мест;

высокий уровень защиты данных;

экономию затрат на администрирование системы.

Системы мониторинга интернет-новостей решают лишь одну часть проблем информационного обеспечения. Но сегодня в них также включается и последующее обобщение данных, их обработка и анализ.

Одним из самых перспективных направлений обобщения информационных потоков в настоящее время является контент-мониторинг. В простейшем виде его идею можно сформулировать как постоянное воспроизводимое во времени выполнение контент-анализа. Подчеркнем, что именно непрерывная обработка входящих данных является самой характерной чертой контент-мониторинга. Собственно контент-анализ выступает тут как методологическая составляющая, однако контент-мониторинг имеет собственную проблематику и собственные пути решения прикладных задач.

Следует отметить, что широкое применение систем контент-мониторинга — явление недавнее, что обусловлено несколькими причинами: социальными, технологическими и экономическими. К социальным причинам можно отнести желание определенных кругов в разных странах монополизировать контент-исследования (прежде всего, политические). Технологическая обусловленность более очевидна — только в последние годы объем электронных новостных сообщений достиг той критической массы, которая позволяет им конкурировать с традиционными СМИ. Например, количество украинских интернет-новостей уже превосходит 5000 в сутки, учет такого потока требует достаточно больших технологических мощностей. Экономические причины также понятны — стоимость развитых систем контент-мониторинга составляет десятки и сотни тысяч долларов, что доступно далеко не всем экспертным центрам (речь не идет об элементарных агентах новостей и ставших уже историей push-каналах).


P e к л а м a: