Эффективный сбор новостей

Internet.UA #9

Дмитрий ЛАНДЭ,
к.т.н., заместитель директора
Информационного центра "ЭЛВИСТИ"

Интернет представляет собой гигантское хранилище информации, объем которой удваивается каждый год. По экспертным оценкам, количество новостей только в украинском и российском сегментах Интернета превышает 50 тысяч сообщений в сутки.

Очевидно, что такое разнообразие информации может быть полезным лишь при эффективном доступе к ней, что оказывается не просто осуществить на практике. Так, по оценкам экспертов, около 79 % журналистов обращаются к Интернет в поисках новостей, и лишь 20 % находят ту информацию, которая им необходима.

Попробуем проанализировать, почему традиционный поиск в Сети может оказаться неэффективным и какие существуют решения, справляющиеся с задачей гораздо лучше.

Недостатки традиционного поиска

Владельцы вэб-сайтов уже давно осознали, что новостная информация помогает привлекать и удерживать посетителей, а потому количество источников новостной информации в Сети постоянно возрастает, осложняя тем самым поиск конкретных данных.

Можно сказать, что и звечная п роблема поиска информации сегодня получила новое звучание: ╚поиск информации в неограниченной неоднородной динамической информационной среде╩. Или, перефразировав с научного языка на бытовой √ ╚поиск иголки в стоге сена╩.

Традиционные поисковые системы предлагают лишь частичное решение этой проблемы. Периоды индексации у них составляют от недель до нескольких месяцев. И несмотря на то, что практически все известные поисковые порталы (Yahoo!, AltaVista, Lycos и др.) имеют новостные разделы, они, сами по себе, уже многих не устраивают. Традиционным подходам к организации поиска сетевой информации присущи такие недостатки, как низкая оперативность, зависимость от набора источников и ограниченность спектра этих источников, средние поисковые возможности, отсутствие средств уведомления о появлении новых данных.

Одна из проблем нахождения информации в Сети обусловлена основным форматом, в котором представлена эта информация √ HTML. Этот формат был разработан, в первую очередь, для решения задач отображения содержания на каждом конкретном вэб-ресурсе, поэтому не всегда удобен для автоматической обработки информации, в том числе и организации поиска. В результате информация в Интернет оказалась ориентирована, прежде всего, на отдельные сайты и очень слабо приспособлена для автоматизированного обобщения, классификации и аналитической обработки.

При импортировании в вэб-ресурс информации с другого сайта (включении новостных сообщений и т. п.) возникает вопрос однотипного представления их содержания (контента). Если этот вопрос не решается, то изменение HTML-оформления сайта-источника приводит к необходимости одновременной модификации программного обеспечения на всех сайтах, которые принимают от него информацию.

Итак, объективно назрела необходимость использования некоего унифицированного формата представления данных. Сегодня в качестве такого формата все чаще используется XML ( или его подмножество - RSS) . XML представляет собой метаязык, то есть язык, на базе которого можно определять новые языки. Он предназначен не только для организации обмена данными в вэб, но и для распознавания их семантики. В отличие от HTML, XML предназначен для представления информации в ╚чистом╩ виде, предполагая структурную, а не оформительскую разметку данных.

Новый подход

Оптимальное решение, способное помочь ориентироваться в новостной информации Интернета, в настоящее время предоставляют информационные службы нового типа - системы синдикации новостей. Под синдикацией в данном случае понимаются технологии сбора информации в Интернете и последующее распространение ее фрагментов в соответствии с потребностями пользователей.

Службы синдикации обеспечивают одновременную публикацию одних и тех же данных на различных страницах, сайтах и мобильных устройствах (в том числе, в карманных компьютерах и мобильных телефонах), а также доставку информации пользователям.

Технология синдикации Интернет-новостей включает в себя "обучение" программ сбора информации структуре выбранных источников, сканирование информации, ее нормирование, приведение к общему формату (в последнее время все чаще к XML , RSS ), классификацию, кластеризацию и доставку пользователям различными каналами ( e - mail , WWW , Wap , SMS и др.).

Получивший в настоящее широкое распространение формат RSS действительно обеспечивает согласованный способ резюмировать содержимого вэб-сайтов. Аббревиатура RSS предполагает неоднозначные, но понятийно близкие трактовки - Really Simple Syndication , Rich Site Summary , RDF Site Summary ( RDF √ Resource Description Framework , стандарт метаданн ы х, тесно связанный с XML ). Изначально RSS создавался компанией Netscape для своего портала Netcenter как одно из первых XML -приложений, но затем быстро завоевал популярность и стал достаточно широко использоваться.

В настоящее вре мя существует 7 версий RSS - RSS 0.90, 0.91, 0.92, 0.93, 0.94, 1.0, 2.0. Все эти версии отличаются друг от друга, но они ориентированы на один тип информации и содержат одинаковые базовые поля.

После того, как информация преобразована в формат RSS , созданную информационную ленту можно читать с помощью специальных программ или импортировать данные из нее на вэб-ресурсы. Сегодня практически все ведущие мировые информационные сайты, ╚живые журналы╩, работающи e в Интернете, используют RSS в качестве инструмента оперативного представления свежей информации.

Разновидностью использования RSS являются новостные фиды ( feed ). Фид - это файл в формате RSS, в который записывается новостная информация вэб-ресурса (точнее, анонсы обновлений). Если есть необходимость оперативно отслеживать изменения на сайте, содержащем фид, то можно делать это с помощью программы-агрегатора не посещая самого сайта. Такой фид, к примеру, недавно появился на портале UAport ( http://uaport.net ) и позволяет получить интегрированный доступ к потоку украинских и российских новостных сообщений из пятисот вэб-сайтов, собираемому системой InfoStream (адрес этого новостного фида - http://uaport.net/cgi-bin/infostream.rss ).

Программа-агрегатор позволяет собирать все публикации с интересующих пользователя сайтов вместе, одновременно следить за появлением новостей на всех сайтах сразу и читать их краткое содержание, не посещая каждый этот сайт в отдельности.

Службы синдикации

На сегодня существует уже множество служб синдикации. Мы рассмотрим их функциональность этих служб на примере наиболее известных.

Moreover

Для интеграции релевантного (соответствующего запросам) полного контента в корпоративные сети или порталы служба Moreover ( http://www.moreover.com ) использует уникальное патентованное решение - Connected Intelligence. Прием информации в систему от 5500 источников в режиме реального времени осуществляется каждые 15 минут (35 тысяч документов в сутки), классифицируется и разделяется по темам. Возможна адресная доставка информации (CI-Watch) и организация режима доступа (CI-Database) к компактному обзору непрерывно индексируемой полнотекстовой базы данных. Эти сведения могут также интегрироваться клиентом в корпоративную сеть, на портал, сайт или передаваться программному приложению.

На сайте Moreover содержатся сведения о технологических подходах к интеграции новостей, которые были созданы в этой службе и де-факто стали стандартами в системах мониторинга. В соответствии с этими разработками реализуется следующая технологическая цепочка: сначала выполняется оценка информационного содержания вэб-ресурса и построение настроечных профилей, описывающих данный ресурс. Редакторы в автоматизированном режиме оценивают ресурсы и формируют профили, удовлетворяющие информационным потребностям клиентов.

Затем вэб-ресурсы автоматически сканируются в соответствии с профилями, происходит преобразование информации в формат XML с добавлением тэгов (даты, времени, имени и типа источника). Ищутся повторы и устраняется дублирование. В соответствии с заданными правилами выполняется автоматическая классификация информации и загрузка ее в базы данных. Служба обработки запросов учитывает содержательную часть и требования к регламенту доставки. На последнем этапе происходит вывод и доставка информации клиентам на их вэб-сайты, в интранет-сети, на входы различных программных приложений.

Следует отметить, что услугами службы синдикации новостей Moreover пользуются ведущие поисковые порталы Интернет. В июле 2003 года технология Moreover интегрирована в новостной портал Yahoo!, с новостного сайта которого ( http:/ / news.yahoo.com ) доступен теперь и нтегрированн ы й доступ к информации из 3500 источников. Служба Moreover охватывает около 80% всех онлайновых систем поиска новостей, являясь службой номер 1 в мире.

Google

В 2002 году популярная поисковая система Google запустила свой новостной сервис - Google News ( http://news.google.com ) , который интегрирует информацию с 4500 различных сайтов. Данные на сайте систем ы рассортированы по нескольким категориям, таким как международные новости, деловой мир, шоу-бизнес, технологии и спорт. "Новости - естественное продолжение нашей миссии", - заявила представитель компании Марисса Майер.

Новости в системе отбираются в зависимости от времени их публикации, популярности источника информации и количества статей, появившихся в Интернете, на данную тему. В ближайшее время компания Google собирается предложить новый вид услуг корпоративным клиентам - рассылку пакетов новостей для использования в аналитических целях и распространения по внутренним сетям. Компания планирует развивать региональные версии Google News, но в настоящее время русско- или украиноязычные версии отсуствуют.

NewsIsFree

Одна из самых перспективных в Сети служб синдикации новостей NewsIsFree ( http://www.newsisfree.com ) охватывает около 6600 источников (в том числе и несколько десятков российских и украинских). Все новости группируются по 15 основным категориям, которые в свою очередь подразделяются на подкатегории. Примечательно, что режим поиска не представлен в системе в явном виде. Основная особенность службы NewsIsFree - это полная интеграция с XML, в частности с RSS. Большинство разделов сайта службы содержат ссылки Syndicate , активизация которых приводит к отображению кода разделов в формате XML.

Служба NewsIsFree, как и программа-агрегатор, позволяет группировать публикации из различных источников. Дизайн вэб-страниц службы NewsIsFree также максимально приближен к концепции XML - на страницах практически отсуствуют элементы оформления.

MSDN

Учитывая существующие в мире тенденции служба MSDN ( http://msdn.microsoft.com ) также приступила к публикации своих новостей в формате RSS, выбрав версию 2.0. Ниже приведен список некоторых тем и адресов новостных фидов MSDN:

- MSDN Just P ublished (all recently released technical content) http://msdn.microsoft.com/rss.xml

- .NET Framework http://msdn.microsoft.com/netframework/rss.xml

- Security http://msdn.microsoft.com/security/rss.xml

Яндекс.Новости

Еще в прошлом году преобладало мнение, что RSS - это формат, используемый в основном на иностранных сайтах, однако сегодня ситуация меняется. Например, обширный перечень RSS-фидов русскоязычного сегмента Интернет находится по адресу http://my.yandex.ru/rss.opml .

Как и для американских информационно-поисковых порталов, необходимость интеграции динамичного новостного контента стала насущной проблемой и для аналогичных российских служб. Известный поисковый портал "Яндекс" открыл проект Яндекс.Новости ( http://news.yandex.ru ) , к которому в настоящее время присоединились около 130 интернет-изданий. Новости сортируются по десяти категориям, существует возможность поиска новостей с указанием раздела и времени публикации новости. Поиск новостей возможен как по всем источникам, так и по заданным пользователем. Имеется также возможность поиска за произвольный период времени. Для сбора новостей используется формат RSS 2.0, позволяющий прилагать к ним дополнительную информацию, в том числе и мультимедийную.

InfoStream

Разработанная в Информационном центре "ЭЛВИСТИ" технология InfoStream ( http://infostream.com.ua ) предназначена для автоматизированного сбора информации с откр ытых вэб-сайтов, ее обработки, систематизации, обобщения и обеспечения доступа к ней. Ядром системы обработки контента является полнотекстовая информационно-поисковая система InfoReS , обеспечивающая обработку данных в трех основных режимах:

- избирательного распространения;

- интерактивного доступа к полнотекстовым базам данных;

- контент-мониторинга.

Если пользователь хочет получать новостную информацию по интересующей тематике по e-mail, SMS или встроить постоянную подборку в свою веб-страницу, то к его услугам сервис InfoStream Сlient . Персонализация интерфейса пользователей, работающих в режиме онлайн, т.е. сохранение их постоянных запросов и организация подписки, реализуется на основе современной технологии RSS 0.91.

Агрегаторы

Как уже говорилось выше, пользователи могут получить доступ к данным в формате RSS с помощью специальных программ, называемых RSS-агрегаторами . Настало время поговорить подробнее и о них. Что это за программы и какими возможностями они обладают?

Специалистами Информационного центра "ЭЛВИСТИ" было опробовано множество программ-агрегаторов, описание наиболее интересных из них мы и предлагаем ниже.

Feedreader

Feedreader - это свободно распространяемая программа для Windows, позволяющая читать данные в формате RSS версий 0.9, 0.91, 1.0, а также различнуе информацию от таких систем, как Dublin Core и Slashbac k ( стандарты описания метаданных информационных ресурсов Сети) . Утилита очень удобна в использовании, обеспечивает работу с информацией на русском и украинском языках, и обладает широким кругом сервисных возможностей. FeedReader версии 2.5 можно загрузить по адресу http://sourceforg e .net/project/showfiles.php?group_id=70179 , размер инсталлятора - 1,2 Мбайт.

FeeedDemon

Feed Demon представляет собой коммерческую программу (в свободном доступе находится бета-версия 1.0 B5 ), обеспечивающую удобную работу с RSS версии 2.0. Выпуск финальной версии ожидается осенью 2003 года. Утилита работает в среде Windows, корректно обращается с русской и украинской кодировками, обеспечивает поиск-фильтрацию информации фидов. Бета-версия 1.0 находится по адресу http://www.feeddemon.com/feeddemon/beta/index.asp , размер инсталятора √ 2 МБайта.

Syndirella 0.9b

Syndirella (Синдирелла) может показывать информацию как с обычных вэб-страниц, так и отображать данные, представленные в формате RSS. Программа реализована на платформе .NET, функционирует в среде операционных систем Windows, и требует установки Internet Explorer версии 5.0 или выше. Для работы программы необходимо инсталлировать библиотеку Microsoft .NET Framework runtime версии 1.0 (20 Мб). Однако если эта компонента уже установлена, то сама программа Syndirella займет всего 250 Кб. Адрес для загрузки: http://www.yole.ru/projects/syndirella .

K.R.S.S. 2.6

KDE's Rich Site Summary viewer - приложение для Linux, позволяющее отображать данные в формате RSS на экране в виде HTML-страниц. Есть возможности по настройке вида отображения при помощи Cascading Style Sheets (CSS) и установки специальных фильтров новостей. Адрес для загрузки программы: http://krss.sourceforge.net/downloads.html , размер файла - 394 Kб.

Что может быть лучше?

Системы синдикации интернет-новостей решают проблему поиска необходимой информации, но оставляют без внимания такие задачи, как обобщение данных, их обработку и анализ.

Одним из самых перспективных направлений обобщения информационных потоков в настоящее время является контент-мониторинг . В простейшем виде его идею можно сформулировать как постоянное воспроизводимое во времени выполнение контент-анализа. Именно непрерывная обработка входящих данных является самой характерной чертой этого метода.

Важные сообщения многократно дублируются в экспоненциально растущем количестве сайтов, в то время, как количество заслуживающих внимания источников растет линейно. Учесть явно дублирующуюся информацию не представляет проблем, однако дублирующиеся по смыслу сообщения выявляются не так легко, и здесь на помощь приходят алгоритмы сопоставления контента, сравнения и вероятностных оценок.

Такие подходы требуют очень больших вычислительных мощностей при общем росте объемов информационных потоков. Серьезное упрощение задачи может быть получено за счет применения содержательных методов контент-мониторинга и "глубинного анализа текстов" (Text Mining ), получивших в настоящее время широкое распространение.

Ускоряющийся темп жизни требует оперативного получения полной и актуальной информации, которая должна учитываться при принятии управленческих, маркетинговых, производственных решений. Современные RSS-технологии синдикации контента будут лучшим помощником в этом процессе √ нужно только выбрать подходящий инструмент.

О работе с RSS

По следующим адресам можно найти еще множество программ для работы с RSS:

http://blogspace.com/rss/readers ;

http://www.meberle.com/personalaggregators.html ;

http://www.lights.com/ web logs/rss.html .

Подробн о об RSS -форматах можно почитать здесь:

http://www.purplepages.ie/RSS/netscape/rss0.90.html,

http://my.netscape.com/publish/formats/rss-spec-0.91.html,

http://backend.userland.com/rss092,

http:// web .resource.org/rss/1.0,

http://backend.userland.com/rss.

© Дмитрий Ландэ, 2003. Все права защищены.


P e к л а м a:
[an error occurred while processing this directive][an error occurred while processing this directive] File not found. [an error occurred while processing this directive]