Читайте новости, батенька!Дмитрий ЛАНДЭ,
dwl@visti.net
Параллельно с визуальным вэбомСегодня Интернет - это огромное хранилище информации, интегрированный доступ к динамической составляющей которого - новостным ресурсам - затруднен. Разнообразие информации, в том числе и новостных сообщений, в Сети не может быть полезным на практике при отстствии эффективного доступа. Так, по оценкам экспертов, около 79% журналистов обращаются к Интернет в поисках новостей, и лишь 20% находят ту информацию, которая им необходима.
Язык HTML, основной формат представления информации в Интернет, описывает лишь внешний вид Web-сайтов, обеспечивая прежде всего визуализацию данных. Он был разработан исключительно для отображения содержания сайтов, и не всегда удобен для автоматической обработки информации, в том числе и для организации поиска. Т.е. вся сеть Интернет ориентирована на показ пользователям отдельных сайтов и плохо приспособлена для автоматизированного сбора информации, ее классификации и аналитической обработки. Сегодня представление информации на разных сайтах настолько отличаются по оформлению и расположению, что отбирать ее и обрабатывать можно только вручную. Так при необходимости обмена информацией между несколькими Web-сайтами, всегда возникает задача унифицированного представления контента. В противном случае, изменение HTML-оформления одного сайта приведет к необходимости одновременной модификации программного обеспечения на всех сайтах, которые принимают его информацию. Аналогичная ситуация возникает при необходимости импортировать информацию на один сайт с нескольких других. Изменения оформления на каждом из сайтов-источников информации будет всегда раз приводить к необходимости модификации соответствующего программного кода на целевом сайте. Как видно, сегодня необходимо использование унифицированного формата данных на сайтах, стандарта, обеспечивающего однотипный обмен данными в Интернет. В качестве такого унифицированного формата все шире используется язык eXtensible Markup Language (XML) и его диалекты. Семантический WebОдним из первых проектов унификации обмена данными в Интернет, стал Семантический Web. Основная идея проекта заключалась в такой организации данных, чтобы Web-серверы могли их использовать, а не только визуализировать, чтобы программы разных производителей могли эффективно работать с Web-контентом. Именно для Семантического Web были разработаны спецификации XML, предусматривающие разделение средств визуализации и смыслового содержания. XML представляет собой метаязык, то есть язык, на базе которого можно определять новые языки. При этом он предназначен не только для организации обмена данными в Web, но и для распознавания семантики этих данных. В отличие от HTML, XML обеспечивает представление информации в чистом виде, предполагая ее структурную, а не оформительскую разметку. Вместе с тем, формально элементы разметки (теги) XML оторваны от определения их смыслового наполнения. Поэтому параллельно с XML было начата разработка стандарта схемы описания источников (Resource Description Framework - RDF) - языка формального описания содержимого Web-сайтов в рамках единого стандарта. Спецификации RDF поддерживают теги, позволяющие определять любые понятия (например, тегами PRICE и INVOICE можно пользоваться для обозначения цены и счета, соответственно). Следует заметить, что данным в формате RDF присваиваются дескрипторы, которые могут определяться в отдельных файлах определения типов документов (Document Type Definitions - DTD). Сегодня практически в каждой отрасли знаний имеется свой, постоянно расширяющийся список DTD. На основе XML и RDF был создан формат RSS, специально предназначенный для обмена новостным контентом Web-сайтов - организации информационной коммуникации как меджу людьми (форумы, "живые журналы", он-лайновые дневники и т.д), так и между серверами. Синдикация новостной информацииОптимальное решение, способное помочь ориентироваться в новостной информации Интернет, сегодня предоставляют информационные службы нового типа - системы синдикации новостей. Под синдикацией в данном случае понимается сбор информации в Интернет и последующее распространение ее фрагментов в соответствии с потребностями пользователей. Кроме того, службы синдикации обеспечивают публикацию одних и тех же данных на различных сайтах (в том числе, предназначенных для карманных компьютеров и мобильных телефонов). Технология синдикации Интернет-новостей включает в себя "обучение" программ сбора структуре выбранных источников (Web-сайтов), непосредственное сканирование информации, ее приведение к общему формату (в последнее время - к XML), классификацию и доставку пользователям различными путями (e - mail, Web, WAP, SMS и т.д.). Форматы синдикации новостейДля решения задачи синдикации новостей было создано несколько форматов описания данных на основе XML. Самый распространенный формат получил название RSS, что означает Really Simple Syndication, Rich Site Summary, хотя изначально он назывался RDF Site Summary. Смысл всех этих аббревеатур заключается в простом способе обобщения и распределения информационного наполнения Web-сайтов - синдикации контента. Изначально RSS создавался компанией Netscape для портала Netcenter как одно из первых XML-приложений, но затем стал использоваться на многих других сайтах. Сегодня практически все ведущие новостные сайты. "Живые журналы", работающиe в Интернет, используют RSS в качестве инструмента оперативного представления своих обновлений. Например, сегодня экспорт в RSS осуществляют крупнейшие порталы, включая CNN, BBC News, Amazon, CNet News, MSNBC, The Register, Wired и т.д. RSS действительно обеспечивает согласованный способ резюмировать содержимого Web-сайтов. Кроме того, его применение позволило администраторам новостных сайтов, онлайновых дневников - блогов, форумов и других часто обновляемых Web-ресурсов, представить информацию в унифицированном виде. Предполагается, что год 2004 станет "Годом RSS", т.е. ожидается повсеместное широкое внедрение этого формата. Аналитики отмечают, что только в начале 2004 года, Интернет-пользователи по-настоящему открыли для себя все прелести технологии RSS. Сегодня для работы с новостями в формате RSS разрабытываются все новые программы, сайты и поисковые системы, которые все более востребованы, в частности пользователями карманных компьютеров. Итак RSS - это формат данных и технический стандарт, который обеспечивает интегрированный доступ к новостной информации, представленной на Web-сайтах, специально созданный для обмена их контентом. Развитие RSS началось с версии 0.90, разработанной компанией Netscape, но его посчитали очень сложным, и Netscape разработала упрощенную версию - 0.91, которую, после бума портальных технологий передала компании UserLand Software. Это самый простой и доступный стандарт, который применяется сегодня в тех ситуациях, когда требуется несложный экспорт заголовков. Одновременно еще одна организация - RSS-DEV Working Group, создала свою версию RSS (1.0), близкую к исходной версии RSS 0.90 и максимально приближенную к стандарту RDF. RSS 1.0 предоставляет больше возможностей чем все 0.9х , например, допускает расширение при помощи модулей. Компания же UserLand решила развить ветвь 0.9х и создала версии 0.92, потом 0.93, 0.94, которые позволяют представлять метаданные, и наконец 2.0. При этом RSS 2.0 - не новая версия RSS 1.0, а логическое продолжение ветви 0.9х. В ней также добавлена поддержка модулей. В настоящее время существует 7 независимых версий RSS - RSS 0.90, 0.91, 0.92, 0.93, 0.94, 1.0, 2.0. Эти версии отличаются друг от друга, хотя все они ориентированы на один тип информации и содержат одинаковые базовые поля. При этом, многие считают все версии, кроме 2.0 устаревшими и "отмененными", но это далеко не так, пока еще самой популярным является RSS 0.91. Специафикации форматов приведены на таких Web-ресурсах: RSS_0.9: http://www.purplepages.ie/RSS/netscape/rss0.90.html RSS_0.91:http://my.netscape.com/publish/formats/rss-spec-0.91.html RSS_0.92:http://backend.userland.com/rss092 RSS_1.0: http://web.resource.org/rss/1.0/ RSS_2.0: http://backend.userland.com/rss/ Во всех версиях RSS есть некоторые особенности, но объединяет их ориентация на один тип информации, вследствие чего они содержат общие базовые поля: основной блок данных (channel), который содержит из атрибуты заглавие канала (title), ссылки (link), данные о языке сообщений (language) и логотип (image), после которых идет список самих сообщений, где в каждом пункте (item) указывается заголовок (title), краткое описание (description) и ссылка на новость (link). Кроме того, каждый RSS-файл начинается обязательными элементами xml и rss. Первый из этих элементов содержит атрибуты version (версия) и encoding (кодировка).
Среди множества необязательных элементов RSS можно назвать самые распространенные - язык (language), copyright, категория информации (category), дата и время публикации сообщения (pubDate), программа, которая использовалась для создания файла (generator), картинка, которую следует показывать наряду с текстовой информацией (image). Кроме заголовка блока данных в формате RSS предусмотрено описание отдельных информационных элементов (item). Каждый элемент <item> - это отдельная статья или краткая аннотация и ссылка на полную версию статьи. Канал (channel) может содержать любое число элементов <item>, содержащих только два обязательных вложенных элементов - название (title) и описание (description). Кроме того, часто используются такие вложенные элементы: ссылка на первоисточник (link), категория (category), комментарий (comments) и автор (author). В качестве примера новостного канала формата RSS 0.91 можно привести динамический файл, формируемый по адресу http://uaport.net/cgi-bin/infostream.rss (Обзор основных событий дня "Електроннi Вiстi"), имеющий такой вид: <?xml version="1.0" encoding="windows-1251" ?> <!DOCTYPE rss PUBLIC "-//Netscape Communications//DTD RSS 0.91//EN" "http://my.netscape.com/publish/formats/rss-0.91.dtd"> <rss version="0.91"> <channel> <title>Електроннi Вiстi</title> <language>ru</language><image> <title>Електроннi Вiстi</title> <url>http://www.elvisti.com/images/export/elvisticom3_88x31.gif</url> <link>http://www.elvisti.com</link> <width>88</width> <height>31</height> </image> <item><title>РАДАР СЛЕДИТ ЗА КОСМИЧЕСКИМ МУСОРОМ</title> <description>В японской префектуре Окаяма с 6 апреля начал работать радар с дистанционным управлением, основная функция которого состоит в отслеживании перемещения космического мусора.</description> <link>http://elvisti.com/2004/04/06/sci-tech.shtml#3</link> </item> <item><title>В ИВАНО-ФРАНКОВСКОЙ ОБЛАСТИ КУРИЦА СНЕСЛА ЯЙЦО ВЕСОМ 143 Г</title> <description>В селе Делиев Галицкого района Ивано-Франковской области курица снесла яйцо весом 143 г. </description> <link>http://elvisti.com/2004/04/06/misc.shtml</link> </item> <item><title>В США БОЛЕЕ 60% КОРПОРАЦИЙ В 1990-Е ГОДЫ НЕ ПЛАТИЛИ НАЛОГИ</title> <description>Более 60% американских корпораций в период бума американской экономики с 1996 по 2000 годы не платили налоги в государственную казну, сообщило Главное бюджетно-контрольное управление США.</description> <link>http://elvisti.com/2004/04/06/biz.shtml#2</link> </item> <item><title>СЕДЬМОЕ АПРЕЛЯ - ВСЕМИРНЫЙ ДЕНЬ ЗДОРОВЬЯ</title> <description>В нынешнем году по рекомендации ВОЗ этот день пройдет под лозунгом "Безопасность на дорогах зависит от каждого из нас".</description> <link>http://elvisti.com/2004/04/06/health.shtml#2</link> </item> </channel> </rss> Помимо формата RSS, недавно появился формат Atom 3.0, пока окончательно не утвержденный, но используемый на крупнейшем поисковом портале Google, что предопределяет его популярность. Открытый стандарт Atom совершенствуется командой программистов из IBM, Google и других компаний. Как и RSS, Atom является подмножеством XML. Приведем пример файла в формате, чтобы подчеркнуть его близость с RSS: <?xml version="1.0" encoding="utf-8"?> <feed version="0.3" xmlns="http://purl.org/atom/ns#"> <title>Наименьший возможный фид в формате Atom 3.0</title> <link rel="alternate" type="text/html" href="http://diveintomark.org/"/> <modified>2004-04-09T18:30:02Z</modified> <author> <name>Иванов Петр</name> </author> <entry> <title>Atom 0.3 пример</title> <link rel="alternate" type="text/html" href="http://uaport.ua/2004/04/09/atom03"/> <id>tag:uaport.ua,2004:4.2397</id> <issued>2004-04-09T08:29:29-04:00</issued> <modified>2004-04-09T18:30:02Z</modified> </entry> </feed> Дэйв Уинер (Dave Winer), один из главных разработчиков RSS, недавно призвал разработчиков объединить свои усилия и разработать единый формат, совместимый как с RSS, так и с Atom, чтобы слить конкурентные стандарты в единое целое. "Новый формат можно назвать RSS/Atom, - заявил Уинер. - Он бы имел всю функциональность, которую разработчики Atom обещают внедрить. Максимально авторитетный формат получил бы наиболее полную поддержку от всех разработчиков". Уинер предлагает, чтобы в RSS/Atom было как можно меньше отличий от RSS 2.0. Нове источники новостного контентаОсновным применением RSS в настоящее время являются новостные фиды ( feed ). Фид - это файл в формате RSS, в который записывается новостной контент Web-ресурса. Если есть необходимость оперативно отслеживать изменения на сайте, содержащем фид, то можно делать это с помощью программы-агрегатора не посещая самого сайта с помощью стандартных программ-браузеров. Ниже приведены адреса самых популярных в Интернет фидов: href=http://w.moreover.com/categories/ocs/ocsdirectory.rdf href=http://10.am/extra/ocsdirectory.php href=http://www.newsisfree.com/ocs/directory.xml href=http://blogspace.com/rss/feeds/converted.ocs href=http://www.groksoup.com/ocs/ocsdirectory.xml href=http://theweb.startshere.net/channels.phtml?format=OCS href=http://myrss.com/catalog/ocs04.rdf href=http://www.newsisfree.com/syndicate.php href=http://www.purplepages.ie/site/content/default.asp href=http://www.syndic8.com/xml.php В настоящее время в русскоязычной части интернет представлены тысячи RSS-фидов, наиболее популярные из которых такие: NEWSru.com - http://www.newsru.com/plain/rss/all.xml Газета.ru - Все новости (RSS) ( www.gazeta.ru/export/gazeta_rss.xml ) Lenty.RU - http://www.lenty.ru/export/bestnews.rss Подробности - (http://www.podrobnosti.com.ua/export/) Lenta.ru - (http://lenta.ru/l/r/EX/import.rss) Полит.РУ - (http://www.polit.ru/rss/index.xml) Портал "Юридическая Россия" ( http://law.edu.ru/rss/news.rss ) Водка он-лайн - http://vodka.com.ua/export/rss.xml Портал "ПлейМобайл" - http://playmobile.ru/news/rss Обширный список RSS-фидов русскоязычного сегмента Интернет находится по адресу http://my.yandex.ru/rss.opml; приведем лишь некоторые, наиболее интересные новостные фиды: Аргументы и Факты - http://www.aif.ru/info/rss.php?magazine=aif АвтоОБЗОР - http://auto.obzor.ru/news/autonews.xml АвиаПорт.Ру - http://www.aviaport.ru/news/yandex_export.xml Деловая Хроника - http://www.chronicle.ru/l/r/EX/rsschannel.xml K2Kapital - http://ad.k2kapital.com/cbp/mynetscape/mynews.news Linux.org.ru - http://images.linux.org.ru/getrss.php3 PalmQ Online - http://www.palmq.net/backend.php СПОРТ сегодня - http://www.sports.ru/sports_docs.xml TRAVEL.RU. Все о путешествиях - http://www.travel.ru/inc/side/yandex.rdf АПК-Информ - http://www.apk-inform.com/yandextr.php ФОНТАНКА.РУ - http://www.fontanka.ru/_transmission_for_yandex.thtml IMA Press. Тема дня - http://www.ima-press.ru/rss.php?newsblock=theme&limit=1 Журнал "Итоги" - http://www.itogi.ru/WebExport.nsf/Anons/itogi.xml Обозреватель - http://www.obozrevatel.com.ua/exp_ya.txt Остров. Новости Донбасса - http://www.ostro.org/yandex.php ПОЛИТ.РУ - http://www.polit.ru/rss/index.xml?yandex_mode=1 PRAVDA.Ru - http://export.pravda.ru/yandex.txt PR NEWS (все пресс-релизы компаний) - http://www.prnews.ru/yandex/business.asp Энциклопедия поисковых систем - http://www.searchengines.ru/news/news.rdf Сетевой журнал - http://www.setevoi.ru/weekly/export1.txt На сегодня существует уже множество служб синдикации новостей, которые предоставляют в доступ тематические фиды, построенные на основе использования многочисленных источников. Такой фид, к примеру, доступен на портале UAport (http://uaport.net) и позволяет получить интегрированный доступ к потоку украинских и российских новостных сообщений, собираемому системой InfoStream(. С помощью RSS-шлюза системой InfoStream, предоставляется унифицированный доступ к информации, более чем с 600 Web-сайтов, сгруппированной по тематикам, языкам, странам, источникам. Объем этой информации сегодня превышает 20 000 сообщений в сутки. RSS-каналы UAport могут генерироваться системой по собственным запросам пользователей к поисковой системе. Рассмотрим функциональность отдельных служб синдикации новостей, предоставляющих информацию в формате RSS. MoreoverДля интеграции соответствующего запросам пользователей контента в корпоративные сети или порталы служба Moreover (http://www.moreover.com) использует собственное решение - Connected Intelligence. Прием информации в систему от 5500 источников в режиме реального времени осуществляется каждые 15 минут (35 тысяч документов в сутки), классифицируется и разделяется по темам. На сайте Moreover содержатся сведения о технологических подходах к интеграции новостей, которые были созданы в этой службе и де-факто стали стандартами в системах мониторинга. Определена следующая технологическая цепочка: сначала выполняется оценка информационного содержания вэб-ресурса и построение конфигурационных профилей, описывающих данный ресурс. Редакторы в автоматизированном режиме оценивают ресурсы и формируют профили, удовлетворяющие информационным потребностям клиентов. Затем вэб-ресурсы автоматически сканируются в соответствии с профилями, происходит преобразование информации в формат XML с добавлением RSS-тэгов. При этом устраняется дублирование. В соответствии с заданными правилами выполняется автоматическая классификация информации и загрузка ее в базы данных. Служба обработки запросов учитывает содержательную часть и требования к регламенту доставки. На последнем этапе происходит вывод и доставка информации клиентам на их вэб-сайты, в интранет-сети, на входы различных программных приложений. В июле 2003 года технология Moreover была интегрирована в новостной портал Yahoo!, с новостного сайта которого (http://news.yahoo.com) доступен теперь и нтегрированн ы й доступ к информации из 3500 источников. В 2002 году популярная поисковая система Google запустила свой новостной сервис - Google News (http://news.google.com) , который интегрирует информацию с 4500 различных сайтов. Данные на сайте системы отсортированы по нескольким категориям, таким как международные новости, деловой мир, шоу-бизнес, технологии и спорт. Новости в системе отбираются в зависимости от времени их публикации, популярности источника информации и количества статей, появившихся в Интернете, на данную тему. Компания Google - крупнейший популяризатор и один из разработчиков формата Atom. NewsIsFreeОдна из самых перспективных в Сети служб синдикации новостей NewsIsFree (http://www.newsisfree.com) охватывает свыше 9000 источников (в том числе, российских и украинских). Все новости группируются по 15 основным категориям (http://www.newsisfree.com/sources/browse/). Примечательно, что режим поиска в RSS-ресурсах обеспечивается поисковым механизмом компании Google. Основная особенность службы NewsIsFree - это полная интеграция с XML, в частности с RSS 0.91. Большинство разделов сайта службы содержат ссылки Syndicate, активизация которых приводит к отображению кода разделов в формате XML. Дизайн вэб-страниц службы NewsIsFree также максимально приближен к концепции XML - на страницах практически отсуствуют элементы оформления. Несмотря на то, что основу информационных ресурсов, охватываемых службой, составляют англоязычные источники, NewsIsFree сегодня крупнейший интегратор и русскоязычных RSS-фидов, каталог которых доступен по адресу: http://newsisfree.com/sources/bylang/?lang=ru. MSDNУчитывая существующие в мире тенденции служба MSDN (http://msdn.microsoft.com) также приступила к публикации своих новостей в формате RSS, выбрав версию 2.0. Ниже приведен список некоторых тем и адресов новостных фидов MSDN: * .NET Framework (http://msdn.microsoft.com/netframework/rss.xml) * ASP.NET - http://msdn.microsoft.com/asp.net/rss.xml * FrontPage - http://msdn.microsoft.com/office/frontpage/rss.xml * Longhorn - http://msdn.microsoft.com/longhorn/rss.xml * Mobile and Embedded - http://msdn.microsoft.com/mobility/rss.xml * MSDN Subscriptions - http://msdn.microsoft.com/subscriptions/rss.xml * Office - http://msdn.microsoft.com/office/rss.xml * Security - http://msdn.microsoft.com/security/rss.xml * Visual Basic - http://msdn.microsoft.com/vbasic/rss.xml * Visual C# - http://msdn.microsoft.com/vcsharp/rss.xml * Visual C++ - http://msdn.microsoft.com/visualc/rss.xml * Visual FoxPro - http://msdn.microsoft.com/vfoxpro/rss.xml * Visual J# - http://msdn.microsoft.com/vjsharp/rss.xml * Visual Studio - http://msdn.microsoft.com/vstudio/rss.xml * Web Services - http://msdn.microsoft.com/webservices/rss.xml * Windows Embedded - http://msdn.microsoft.com/embedded/rss.xml Яндекс.НовостиСлужба "Яндекс" открыла проект Яндекс.Новости (http://news.yandex.ru) , к которому в настоящее время присоединилось свыше 400 Интернет-изданий. Новости сортируются по десяти категориям, существует возможность поиска новостей с указанием раздела и времени публикации новости. Поиск новостей возможен как по всем источникам, так и по заданным пользователем. Имеется также возможность поиска за произвольный период времени. Для сбора и экспорта новостей используется формат RSS 2.0, позволяющий прилагать к ним дополнительную информацию, в том числе и мультимедийную. Сегодня бесплатная служба синдикации новостного контента "Яндекс" представляет такие основные каналы: Главные новости - http://news.yandex.ru/index.rss Политика - http://news.yandex.ru/politics.rss В мире - http://news.yandex.ru/world.rss Общество - http://news.yandex.ru/society.rss Экономика - http://news.yandex.ru/business.rss Спорт - http://news.yandex.ru/sport.rss Происшествия - http://news.yandex.ru/incident.rss Культура - http://news.yandex.ru/culture.rss Здоровье - http://news.yandex.ru/health.rss Компьютеры - http://news.yandex.ru/computers.rss Интернет - http://news.yandex.ru/internet.rss Авто - http://news.yandex.ru/auto.rss InfoStreamРазработанная в Информационном центре "ЭЛВИСТИ" система InfoStream( (http://infostream.ua) предназначена для автоматизированного сбора информации с открытых Web-сайтов, ее обработки, систематизации и обеспечения доступа к ней. Если пользователь хочет получать новостную информацию по интересующей тематике по e-mail, SMS или встроить постоянную подборку в свою веб-страницу, то к его услугам сервис InfoStream Сlient . Персонализация интерфейса пользователей, работающих в режиме онлайн, т.е. сохранение их постоянных запросов и организация подписки, реализуется на основе современной технологии RSS 0.91. Для получения тематической ленты InfoStream (RSS-фида), в соответствующее поле RSS-агрегатора следует ввести адрес в формате: http://uaport.net/cgi-bin/infostream.rss?<ЗАПРОС>, где в качестве запроса можно ввести слово или словосочетание на языке запросов информационно-поисковой системы InfoReS. На основе технологии InfoStream( созданы такие новостные каналы: Агропром - http://uaport.net/cgi-bin/infostream.rss?rubr01 Банки - http://uaport.net/cgi-bin/infostream.rss?rubr02 Экономика - http://uaport.net/cgi-bin/infostream.rss?rubr03 Экономика Украины - http://uaport.net/cgi-bin/infostream.rss?rubr04 Недвижимость - http://uaport.net/cgi-bin/infostream.rss?rubr05 Биржи - http://uaport.net/cgi-bin/infostream.rss?rubr06 Инвестиции - http://uaport.net/cgi-bin/infostream.rss?rubr07 Приватизация- - http://uaport.net/cgi-bin/infostream.rss?rubr08 Нормативные акты - http://uaport.net/cgi-bin/infostream.rss?rubr09 Оборона, Конверсия - http://uaport.net/cgi-bin/infostream.rss?rubr10 Официальная хроника - http://uaport.net/cgi-bin/infostream.rss?rubr11 Криминал - http://uaport.net/cgi-bin/infostream.rss?rubr12 Обзоры прессы - http://uaport.net/cgi-bin/infostream.rss?rubr13 Связь - http://uaport.net/cgi-bin/infostream.rss?rubr14 Экология - http://uaport.net/cgi-bin/infostream.rss?rubr15 Энергетика - http://uaport.net/cgi-bin/infostream.rss?rubr16 Медицина - http://uaport.net/cgi-bin/infostream.rss?rubr17 Наука и техника - http://uaport.net/cgi-bin/infostream.rss?rubr18 Компьютеры - http://uaport.net/cgi-bin/infostream.rss?rubr19 Астрология - http://uaport.net/cgi-bin/infostream.rss?rubr20 Культура - http://uaport.net/cgi-bin/infostream.rss?rubr21 Катастрофы - http://uaport.net/cgi-bin/infostream.rss?rubr22 Образование - http://uaport.net/cgi-bin/infostream.rss?rubr23 Внешнеэкономическая деятельность - http://uaport.net/cgi-bin/infostream.rss?rubr25 Масс-медиа - http://uaport.net/cgi-bin/infostream.rss?rubr26 Калейдоскоп - http://uaport.net/cgi-bin/infostream.rss?rubr27 Религия - http://uaport.net/cgi-bin/infostream.rss?rubr28 Спорт - http://uaport.net/cgi-bin/infostream.rss?rubr29 Туризм - http://uaport.net/cgi-bin/infostream.rss?rubr30 Транспорт - http://uaport.net/cgi-bin/infostream.rss?rubr31 Автотранспорт - http://uaport.net/cgi-bin/infostream.rss?rubr32 Системы поиска фидовДля нахождения RSS-фидов существуют многочисленные списки и каталоги, однако объемы существующих RSS-ресурсов таковы, что пользователям уже не достаточно десятка-другого категорый каталогов. Как всегда в подобных случаях на помощь приходять информационно-поисковые системы, которые позволяют находить как целые RSS-фиды, так и отдельные сообщения по ключевым словам. И в Интернет появились поисковые сайты по RSS-фидам. Одним из первых был сервис Feedster.com, который кроме непосредственно поиска позволяет подписаться на его результаты в формате RSS. В настоящее время Feedster обрабатывает 500 тысяч RSS-сообщений в сутки. Еще одна поисковая система доступна на сайте http://Assimilatethe.net. Эта система охватывает свыше 3500 RSS-ресурсов. Система ищет по заголовкам и описаниям RSS-сообщений. В базе данных системы Assimilatethe сейчас порядка 193,000 сообщений. Как известно RSS - самый распространенный формат для "живих журналов" - блогов (от слова Weblog). Для поиска по блогам также существуют сотни каталогов и поисковых систем. Среди основних поисковыми систем по блогам можно назвать: DayPop - http://www.daypop.com Blog Search Engine - http://blogsearchegine.com Feedster - http://www.feedster.com BlogStreet - http://www.blogstreet.com Blogarama - http://blogarama.com/in.php?ID=2080 Globe of Blogs - http://www.globeofblogs.com BlogDex - http://blogdex.media.mit.edu Weblogs.com - http://weblogs.com BlogWise - http://www.blogwise.com BlogHop - http://www.bloghop.com BlogUniverse - http://www.bloguniverse.com АгрегаторыПользователи, конечно же могут читать RSS-файлы с помощью стандартних Web-браузеров, что однако сопряжено с просмотром XML-разметки и полным отсуствием всякого оформления. За это и боролись создатели формата RSS. А вот для интерпретации ╓того формата существует бесчисленное множество программ, соданных в основном в последние два-три года. Т.е. пользователи могут получить доступ к данным в формате RSS с помощью специальных программ. Эти программы называются RSS-агрегаторами и в наглядном виде отображают содержание RSS-фидов. Программа-агрегатор позволяет собирать RSS-файлы с Web-сайтов, одновременно следить за появлением на них новостей и читать их содержание этих новостей. Программы-аггрегаторы (их еще называют RSS-парсерами) выполняют синтаксический разбор данных, представленных в формате RSS, после чего могут реализовывать любые действия по отношению к этим данных, например, отсылать их по электронной почте либо отображать на определенном Web-сайте. Сегодня наиболее популярны агрегаторы, позволяющие собирать RSS-данные с разных Web-сайтов вместе. Feedreader (http://www.feedreader.com)Feedreader - это свободно распространяемая программа для Windows, позволяющая читать данные в формате RSS версий 0.9, 0.91, 1.0, а также различную информацию от таких систем, как Dublin Core и Slashback (стандарты описания метаданных информационных ресурсов Сети). Утилита очень удобна в использовании, обеспечивает работу с информацией на русском и украинском языках, и обладает широким кругом сервисных возможностей. FeedReader версии 2.5 можно загрузить по адресу http://sourceforg e .net/project/showfiles.php?group_id=70179 , размер инсталлятора - 1,2 Мбайт. Feedreader - типичный RSS-агрегатор, интерфейс котрого напоминает интерфейс почтовых программ. У пользователя, знакомого с почтовыми клиентами, работа с программой не вызывает затруднений. Остановимся подробнее на самих необходимых возможностях этой программы. Для настройки подписки на RSS-фид пользователю следует активизировать опцию New и ввести следующую информацию:
При этом имеется возможность изменения кодировки, размеров шрифтов, помещения фида в отдельную папку, группировки фидов. Для управления подпиской в существуют дополнительные опции, активизируемые нажатием правой клавиши мыши при установке курсора на конкретном фиде:
Для получения полного текста сообщения (на которое есть ссылка - <link>), заголовок и аннотация которого вызвали интерес, следует:
FeeedDemon (www.feeddemon.com)Feed Demon представляет собой коммерческую программу (в свободном доступе находится бета-версия 1.0 B5), обеспечивающую удобную работу с RSS версии 2.0. Выпуск финальной версии ожидается осенью 2003 года. Утилита работает в среде Windows, корректно обращается с русской и украинской кодировками, обеспечивает поиск-фильтрацию информации фидов. Бета-версия 1.0 находится по адресу http://www.feeddemon.com/feeddemon/beta/index.asp , размер инсталятора - 2 МБайта. В дружественном пользователю интерфейсе агрегатора легко отслеживать и читать свежие фиды. Feed Demon позволяет представлять содержимое новостных лент в виде своеобразной газеты.
Приступить к использованию программы можно немедленно после инсталляции, так как сразу пользователь начнет получать рассылки с сайтов Rollingstone.com, Scripting News, Sladshot, Wired, Yahoo! и др. Сообщения программа позволяет сохранять (News Bins) и отслеживать по ключевым словам, запуская функцию Watches. Отдельные RSS-фиды можно перенаправлять в тематические списки или каналы. FeedDemon также позволяет проводит поиск и читать новости в автономном режиме. Для подписки на фиды в программе следует ввести URL источника или импортировать файл OPML (Outline Processor Markup Language). OPML - это диалект XML, который применяется для совместного использования информации прикладными программами. С помощью OPML выполняется пересылка списка подписки RSS из SharpReader, и этот прием оказался очень эффективным. Бета-версия FeedDemon 1.0 успешно выдержала наши испытания. Это одна из самых полнофункциональных среди рассмотренных нами программ чтения новостей. Мы с нетерпением ждем выхода окончательной версии продукта. Ориентировочная цена окончательной версии FeedDemon 1.0 составляет 29 долларов. Abilon и ActiveRefreshЭти два агрегатора от одного производителя - компании Abilon и ActiveRefresh и(http://www.activerefresh.com/download.php). Бесплатная программа Abilon вполне подходит для среднего пользователя, программа проста и надежна, отличается высокой скоростью и малой ресурсоемкостью (339 КБ). Она обладает возможностью закачки новых каналов с сайтов MoreOver, MyRss и NewsIsFree. Однако ей не хватает возможностей глобального поиска и сжатия информации. В отличие от Abilon, ActiveRefresh - это платная программа - полная реализация концепции компании, которая позволяет аггрегировать обычные Web-сайты, импортировать с них новости, представленные в HTML, следить за почтовыми ящиками, проводить глобальный поиск и т.д. Syndirella 0.9bSyndirella (Синдирелла) может показывать информацию как с обычных вэб-страниц, так и отображать данные, представленные в формате RSS. Программа реализована на платформе .NET, функционирует в среде операционных систем Windows, и требует установки Internet Explorer версии 5.0 или выше. Для работы программы необходимо инсталлировать библиотеку Microsoft .NET Framework runtime версии 1.0 (20 Мб). Однако если эта компонента уже установлена, то сама программа Syndirella займет всего 250 Кб. Адрес для загрузки: http://www.yole.ru/projects/syndirella . Сегодня большую популярность, кроме перечисленных, для работы под Windows получили еще два агрегатора - Awasu и Beaver. Особенность бесплатной программы Awasu (http://www.awasu.com) заключается в ее возможности объединять потоки множества новостных сайтов и блогов. Beaver (http://www31/brinkster.com/toolmaker) принимает фиды форматов RSS/RDF и имеет привычный интерфейс в стиле Outlook Express. K.R.S.S. 2.6KDE's Rich Site Summary viewer - приложение для Linux, позволяющее отображать данные в формате RSS на экране в виде HTML-страниц. Есть возможности по настройке вида отображения при помощи Cascading Style Sheets (CSS) и установки специальных фильтров новостей. Адрес для загрузки программы: http://krss.sourceforge.net/downloads.html , размер файла - 394 Kб. LifereaВ последнее время для ОС Linux большую популярность приобретает агрегатор Liferea (http://liferea.sourceforge.net/). Liferea поддерживает многочисленные основанные на XML форматы новостных фидов, такие как RSS, RDF, Atom, Echo, PIE, а также OCS и OPML для списков фидов. Эта программа распространяетс с библиотекой GTK2. В настоящее время создаются и уже созданы многочисленные инструментальные средства для разработки программ работы с RSS-данными. Например, для разработки программ-парсеров на языке Perl создан модуль XML::RSS, который загружается с сайта http://search.cpan.org/. RSS для мобильных устройствВладельцы же КПК, установив на свои устройства RSS-агрегаторы, могут эффективно просматривать новостные файлы в RSS - формате. Для платформы Palm OS наиболее популярной является программа компании Stand Alone - Hand RSS. Скачать демонстрационную версию программы можно по адресу http://www.standalone.com/cgi/prc_request.cgi. Стоит эта программа $14.95, но скачать и опробовать ее демо-версию можно бесплатно. В качестве еще одного эффективного агрегатора можно назвать программу Quick Palm RSS Reader (http://remus.manilasites.com/). Из специализированных для Pocket PC можно назвать агрегатор новостей в RSS/RDF PocketFeed (http://www.furrygoat.com/Software/). Не обязательно устанавливать программу-агрегатор прямо на наладоннике. Существуют серверные решения, выполняющие всю работу по интерпретации RSS-фидов и преобразованию результатов к формату, пригодному для КПК. Один из лучших сайтов подобного назначения - MobileRSS (mobilerss.net). Для работы с этим бесплатным сервером необходима лишь формальная авторизация. Зарегистрированный клиент вводит и активизирует адреса необходимых ему RSS-фидов, после чего просматривает их в свободном режиме. Примечательно, что этот зарубежный сервис обеспечивает корректную работу с кириллическими шрифтами. Что день грядущий нам готовит...С помощью современной RSS-технологии пользователи Интернет получили надежный и простой доступ к ресурсам оперативной информации с Web-сайтов Сети. Перспективность и популярность RSS как стандарта обусловлена прежде всего его доступностью и простотой. Сегодня практически все ведущие информационные сайты в мире, "живые журналы", работающиe в Интернет, используют RSS как инструмент оперативного представления обновлений своих ресурсов. Еще один, неожиданный аспект применения RSS-технологий, стал актуален в связи с массовым распространением невостребованных рассылок по электронной почте - СПАМа. Действительно, электронная почта привлекательна и для спамеров. Нередко списки электронных адресов подписчиков новостей на сайтах и порталах становятся добычей взломщиков. Этот фактор делает подписку через e-mail достаточно рискованным занятием. Поэтому можно предположить, что на смену рассылкам придет использование RSS-фидов. В отличие от рассылок по электронной почте, где доставка инициируется администраторами сайтов, после того, как подписчик оставил им свой адрес, в случае с RSS пользователь сам вводит адрес необходимого ему RSS-фида в программу-агрегатор. Эта программа периодически проверяет, не изменилось ли содержание RSS-фида, и при наличие изменений автоматически закачивает его содержимое. Главным преимуществом RSS-технологии оказалась одностороняя связь - пользователь сам принимает решение о получении каждого конкретного сообщения. Популярность RSS-технологии у владельцев Web-ресурсов (не только новостных, но и коммерческих) набирает все большую популярность еще и благодаря своей экономичности - не требуется никаких средств борьбы со спамом, фильтрации писем, управления рассылкой. При этом все, кому это необходимо получают необходимую информацию о важных событиях, корпоративных анонсах, обновлениях Web-сайтов. Индустрия рекламы также не осталась в стороне от использования технологий RSS. Хотя RSS версий допускает вставку гиперссылок и изображений, но как рекламный носитель RSS несколько уступает электронным письмам в HTML-формате. В настоящее время Сан-Франциско создается первая онлайновая рекламная сеть RSSAds, которая базируется на внедрении текстовой рекламы в заголовки RSS версий 0.90, 0.91, 1.0, 2.0 и Atom. Основателям этой сети удалось разработать систему подсчета рекламных показов - как только RSS-клиент обращается на сервер с запросом, система учитывает это событие. RSSAds планирует продавать рекламу, используя разнообразные модели: с оплатой за количество показов, за время показов, за количество кликов, а также за размещение рекламы в заголовках. Системы синдикации Интернет-новостей решают проблему нахождения необходимой информации, но оставляют без внимания такие задачи, как обобщение данных - их обработку и анализ. Одним из самых перспективных направлений обобщения информационных потоков в настоящее время является метод "глубинного анализа текстов" (Text Mining). Применительно к новостным потокам его идеологию можно сформулировать как постоянное воспроизводимое во времени выполнение их содержательного анализа. Именно непрерывная аналитическая обработка сообщений является самой характерной чертой этого метода, который позволяет формировать автоматические дайджесты, выявлять новые понятия и их взаимосвязи, рассчитывать разнообразные рейтинги. Именно системы такого типа смогут избавить пользователей от дублирующейся информации, информационного шума, позволят выявлять главные тенденции, находить коррелирующие сообытия. По прогнозам аналитической компании IDC, спрос на подобные системы существенно возрастет в течение ближайших 4-5 лет. Ожидается, что 2005 году прибыль от продажи таких систем составит $1,5 млрд, а в 2006 году они будут доминировать в сфере анализа информации. |
© 2003 Д.В. Ландэ, А.Ю.Морозов |