Об отделении зерен от плевел |
|
Дмитрий ЛАНДЭ, Сегодня, когда сеть Интернет превратилась во всемирную медиа-среду, она становится одним из самых важных и доступных источников информации. По экспертным оценкам, количество новостей только в украинском и российском сегментах Интернета превышает 20 тысяч сообщений в сутки. Ориентация в информации такого типа с помощью традиционных поисковых систем весьма затруднительна, так как периоды индексации у них составляют от недели до нескольких месяцев. Несмотря на то, что практически все известные поисковые порталы (Google, Yahoo!, AltaVista, Alltheweb и др.) имеют новостные разделы, они зачастую уже не устраивают не только профессионалов, но и обычных пользователей. Уже никто не отрицает факта, что работа с открытыми источниками является наиболее эффективным способом формирования информационной среды по различным тематикам и направлениям. Однако само наличие данных может помочь пользователю лишь при возможности эффективного доступа к ним. Вместе с тем, традиционным подходам к организации поиска сетевой информации присущи такие недостатки, как низкая оперативность, зависимость от выбора источников и ограниченность спектра этих источников, средние поисковые возможности, отсутствие средств уведомления о появлении новых данных, слабая защита компьютерной информации. Оптимальное решение, способное помочь ориентироваться в новостной информации из Интернета, в настоящее время предоставляют информационные службы нового типа системы мониторинга (интеграторы) новостей в web-пространстве. Технология мониторинга и последующей синдикации интернет-новостей подразумевает такие основные этапы, как "обучение" программ сбора информации структуре выбранных источников, сканирование информации, ее нормирование, приведение к внутрисистемному формату (в последнее время все чаще к XML), классификация, кластеризация, доставка пользователям различными каналами: e-mail, WWW, Wap, SMS, другие приложения. В качестве таких приложений могут выступать, например, ставшие уже традиционными полнотекстовые поисковые системы, а также системы контент-анализа и "глубинного анализа текстов" (Text Mining), используемые для автоматического выявления смысла в текстах. В этой статье мы остановимся лишь на некоторых системах мониторинга интернет-новостей. Мoreover Для интеграции релевантного (соответствующего запросам) полного контента в корпоративные сети или порталы служба Moreover использует патентованное решение Connected Intelligence. Передача осуществляется порциями от 5500 источников в режиме реального времени, классифицируется и разделяется по темам, обновляется каждые 15 минут (35 тысяч документов в сутки). Возможна адресная доставка информации (CI-Watch) и организация режима доступа (CI-Database) к компактному обзору непрерывно индексируемой полнотекстовой базы данных. Эти сведения могут также интегрироваться клиентом в корпоративную сеть, на портал, сайт или передаваться программному приложению. На сайте Moreover содержатся сведения о технологических подходах к интеграции новостей, которые были созданы в этой службе и де-факто стали стандартами в системах мониторинга. В соответствии с этими разработками реализуется следующая технологическая цепочка: сначала выполняется оценка информационного содержания web-ресурса и построение настроечных профилей, описывающих данный ресурс. Редакторы в автоматизированном режиме оценивают ресурсы и формируют профили, удовлетворяющие информационным потребностям клиентов. Затем web-ресурсы автоматически сканируются в соответствии с профилями, происходит преобразование информации в формат XML с добавлением тегов (даты, времени, имени и типа источника). Ищутся повторы и устраняется дублирование. В соответствии с заданными правилами выполняется автоматическая классификация информации и загрузка ее в базы данных. Служба обработки запросов учитывает содержательную часть и требования к регламенту доставки. На последнем этапе происходит вывод и доставка информации клиентам на их web-сайты, в интранет-сети, на входы различных программных приложений. В 2002 году популярная система интернет-поиска Google запустила свой новостной сервис Google News, который интегрирует информацию с 4500 различных сайтов. Данные рассортированы по нескольким категориям, таким как международные новости, деловой мир, шоу-бизнес, технологии и спорт. "Новости естественное продолжение нашей миссии", заявил представитель компании Марисса Майер. Новости в системе отбираются в зависимости от времени их публикации, популярности источника информации и количества статей, появившихся в Интернете, на данную тему. В ближайшее время компания Google собирается предложить новый вид услуг корпоративным клиентам рассылку пакетов новостей для использования в аналитических целях и распространения по внутренним сетям. NewsIsFree Одна из самых перспективных в Сети служб интеграции новостей NewsIsFree охватывает около 6000 источников (в том числе и несколько десятков российских и украинских). Все новости группируются по 15 основным категориям, которые в свою очередь подразделяются на подкатегории. Примечательно, что режим поиска не представлен в системе в явном виде. Основная особенность службы NewsIsFree это полная интеграция с XML, в частности с RSS. Примечательно, что служба именует себя агрегатором новостей так обычно называются программы, обеспечивающие доставку новостной информации непосредственно пользователем. Большинство разделов сайта службы содержат ссылки Syndicate, активизация которых приводит к отображению кода разделов в формате XML. Служба NewsIsFree, как и программа-агрегатор, позволяет группировать публикации из различных источников, давая возможность одновременно отслеживать появление новостей на всех сайтах без захода на каждый ресурс в отдельности. При этом, конечно же, не требуется загружать из Интернета лишней информации, относящейся, например, к оформлению web-страниц. Дизайн web-страниц службы NewsIsFree также максимально приближен к концепции XML элементы оформления как таковые практически отсутствуют :-). Информационное агентство "Интегрум" Крупнейшее в России агентство по интеграции новостей Интегрум (http://www.integrum.ru) обеспечивает собирание в единый массив электронных версий коммерческих, статистических и новостных информационных продуктов. Контент-механизмом службы является авторской разработкой агентства это лингвистическая поисковая система Артефакт, основанная на сложных морфологических алгоритмах. В 3800 базах данных службы сагрегировано 170 млн. документов, ежесуточно пополняющихся на 10 тыс. документов. Сервис Персональная газета заключается в создании запросов-роботов, осуществляющих автоматический поиск и доставку материалов подписчику по заданным ими ключевым словам. Сервис имеет развитую систему настроек по контексту и источникам информации. Каждый запрос обрабатывается системой Артефакт от одного до трех раз в сутки. В результате выбираются предварительно загруженные в базу данных документы, соответствующие запросам, которые высылаются пользователям по электронной почте. Яндекс Как и для американских информационно-поисковых порталов, необходимость интеграции динамичного новостного контента стала насущной проблемой и для аналогичных российских служб. Известный поисковый портал "Яндекс" открыл проект Яндекс.Новости, к которому в настоящее время присоединились около 130 интернет-изданий. Главной особенностью "Яндекс.Новости" как открытого публичного сервиса является наличие тем, которые объединяют содержательно близкие новости с различных сайтов. Для сбора новостей используется формат RSS 2.0 (Realy Simple Syndication), позволяющий прилагать к ним дополнительную информацию, в том числе и мультимедийную. Посетитель "Яндекс.Новостей" может воспользоваться тематическими разделами (все полученные новости группируются по десяти рубрикам), а также подписаться на новости определенной тематики или соответствующие конкретному поисковому запросу. Поиск новостей возможен как по всем источникам, так и по заданным пользователем. Имеется также возможность поиска за произвольный период времени. Технология InfoStream Технология InfoStream предназначена для автоматизированного сбора информации с сайтов, ее обработки, систематизации, обобщения и обеспечения доступа к ней. Ядром системы обработки контента является полнотекстовая информационно-поисковая система InfoReS, обеспечивающая обработку данных в трех основных режимах: избирательного распространения; интерактивного доступа к полнотекстовым базам данных; контент-мониторинга. Если пользователь хочет получать новостную информацию по интересующей тематике (она определяется на языке запросов с помощью ключевых слов, логических операторов, операторов контекстной близости и скобок) по e-mail, SMS или встроить постоянную подборку в свою веб-страницу, то к его услугам сервис InfoStream Сlient. Персонализация интерфейса пользователей, работающих в режиме онлайн, то есть сохранение их постоянных запросов и организация подписки, реализуется на основе современной технологии RSS (этот формат данных и технический стандарт обеспечивает интегрированный доступ к новостной информации на web-сайтах). Сегодня системой InfoStream охватывается ежедневно свыше 20 000 документов из более чем 500 информационных источников, перечень которых постоянно изменяется. Количество этих источников постоянно растет. Сведения о новых информационных источниках поступают как непосредственно от разработчика, так и от пользователей сервисов InfoStream. В результате реализуется эффективный механизм обратной связи между службой сопровождения системы и пользователями. WAP-портал холдинга UAport (http://wap.uaport.net) через InfoStream-шлюз обеспечивает просмотр на экране мобильного телефона новостей с десятков веб-сайтов. Они сгруппированы по тематикам, странам, источникам. Это еще один из возможных вариантов доставки информации. Итак, InfoStream Port. Это впервые созданное в Украине аппаратно-программное решение является реализацией новостного поискового сервера, предназначенного для информационного обеспечения компаний разного уровня. Информационное обеспечение InfoStream Port базируется на использовании информационного хранилища, формируемого на технической площадке ElVisti в результате ряда технологических операций: сбор информации в Интернете; нормализация информации, приведение ее к единому формату; автоматическая классификация информации; помещение данных в информационное хранилище; предоставление санкционированного доступа к информационному хранилищу. Использование InfoStream Port обеспечивает: существенную экономию интернет-трафика; формирование и хранение ретроспективных баз данных практически неограниченных объемов; интерактивный доступ корпоративных пользователей к базам данных; комфортную работу пользователей с неограниченного количества рабочих мест; высокий уровень защиты данных; экономию затрат на администрирование системы. Системы мониторинга интернет-новостей решают лишь одну часть проблем информационного обеспечения. Но сегодня в них также включается и последующее обобщение данных, их обработка и анализ. Одним из самых перспективных направлений обобщения информационных потоков в настоящее время является контент-мониторинг. В простейшем виде его идею можно сформулировать как постоянное воспроизводимое во времени выполнение контент-анализа. Подчеркнем, что именно непрерывная обработка входящих данных является самой характерной чертой контент-мониторинга. Собственно контент-анализ выступает тут как методологическая составляющая, однако контент-мониторинг имеет собственную проблематику и собственные пути решения прикладных задач. Следует отметить, что широкое применение систем контент-мониторинга явление недавнее, что обусловлено несколькими причинами: социальными, технологическими и экономическими. К социальным причинам можно отнести желание определенных кругов в разных странах монополизировать контент-исследования (прежде всего, политические). Технологическая обусловленность более очевидна только в последние годы объем электронных новостных сообщений достиг той критической массы, которая позволяет им конкурировать с традиционными СМИ. Например, количество украинских интернет-новостей уже превосходит 5000 в сутки, учет такого потока требует достаточно больших технологических мощностей. Экономические причины также понятны стоимость развитых систем контент-мониторинга составляет десятки и сотни тысяч долларов, что доступно далеко не всем экспертным центрам (речь не идет об элементарных агентах новостей и ставших уже историей push-каналах). |