Rедкостный Sинтез Sайтов

N 25(248)/23.06.2003       

Дмитрий ЛАНДЭ, Александр МОРОЗОВ

Интернет представляет собой гигантское хранилище информации, доступ к динамической составляющей которого — новостным ресурсам — затруднен по нескольким причинам. Одна из которых порождена особенностями основного формата Сети — HTML.

Проблемы информационной коммуникации в Интернете

Язык HTML описывает внешний вид web-сайтов, их отдельных страниц, обеспечивая прежде всего визуализацию. Этот формат был разработан, в первую очередь, для решения задач отображения содержания на каждом конкретном ресурсе, поэтому не всегда удобен для автоматической обработки информации, в том числе и организации поиска. В результате вся Сеть Интернет оказалась ориентирована, прежде всего, на отдельные сайты и очень слабо приспособлена для автоматизированного обобщения информации, ее классификации и аналитической обработки.

Очень часто возникает необходимость обмена информацией, например, между несколькими сайтами, при этом всегда встает вопрос о технологии однотипного представления их содержания. Если такая технология не используется, то изменение HTML-оформления одного сайта приведет к необходимости одновременной модификации программного обеспечения на всех сайтах, которые принимают от него информацию. Приблизительно такая же ситуация возникает при необходимости импортировать информацию на один ресурс с нескольких других, предположим, тематически близких. Изменения оформления на каждом из сайтов-экспортеров информации будет каждый раз требовать модификации соответствующего программного кода на сайте-импортере.

Все это обусловило необходимость использования унифицированного представления данных. Требовался некоторый стандарт представления информации на сайтах, обеспечивающий однотипный обмен данными в такой сложной системе, как Интернет. Сегодня в качестве такого унифицированного формата все чаще используется формат RSS.

Семантический Web

Одним из первых проектов, призванных решить задачи унификации обмена данными между серверами Великой Сети, стал Semantic Web. В его основу была положена следующая идея организации данных в Интернете. Серверы должны были уметь не только визуализировать информацию, но и использовать ее. Таким образом различные программы разных производителей могли эффективно работать с данными из Сети. Дело оставалось за малым — создать правила формирования блоков информации, которые смог бы понять не только человек, но и компьютер. Именно для проекта Semantic Web были разработаны спецификации XML, предусматривающие разделение содержания, представления и смыслового значения.

XML представляет собой метаязык, то есть язык, на базе которого можно определять новые языки. Он предназначен не только для создания программного обеспечения, служащего для организации обмена данными в Web, но и для распознавания семантики этих данных. В отличие от HTML, XML предназначен для представления информации в ╚чистом╩ виде, предполагая структурную, а не оформительскую разметку данных.

Вместе с тем, XML, являясь необходимой частью решения задачи обмена информационным наполнением сайтов, сам по себе не может дать ничего того, что необходимо для инфраструктуры обработки данных. Дело в том, что формально теги XML оторваны от определения их смыслового наполнения. Параллельно с XML было начата разработка стандарта схемы описания источников (Resource Description Framework, или RDF). Спецификации RDF поддерживают теги, позволяющие определять любые понятия (например, теги PRICE и INVOICE можно использовать для обозначения типов данных, соответственно, ╚цена╩ и ╚счет╩). В этом случае отпадает необходимость анализировать все остальное содержание wеb-страницы в поисках нужной информации. Данным в формате RDF присваиваются дескрипторы, которые могут определяться в отдельных файлах определения типов документов Document Type Definitions (DTD). В каждой отрасли имеется свой, постоянно расширяющийся список DTD. Находящиеся в Сети узлы метаданных RDF должны обеспечить значительно более высокое качество и скорость обмена информацией и поиска данных в Интернете.

Понятие RSS

На основе XML и RDF был разработан формат RSS, специально предназначенный для легкого и быстрого обмена контентом между сайтами — организации информационной коммуникации между серверами. Изначально RSS создавался компанией Netscape для своего портала Netcenter как одно из первых XML-приложений, но затем быстро завоевал популярность и стал достаточно широко использоваться.

Аббревиатура RSS предполагает неоднозначные, но понятийно близкие трактовки — Really Simple Syndication, Rich Site Summary, RDF Site Summary. Подразумевается, что речь идет о простом способе обобщения и распределения информационного наполнения (синдикации) сайтов.

Уже завоевавший сегодня популярность формат RSS обеспечивает согласованный способ резюмировать содержимое сайтов. Благодаря ему администраторы сайтов новостей, онлайновых дневников (weblog), форумов и других часто обновляемых web-ресурсов получили простой и унифицированный метод подачи информации о происходящих событиях. Сегодня RSS рассматривается, в первую очередь, как формат, предназначенный для публикации и обеспечения экспорта новостей на новостных сайтах. После того, как информация преобразована в формат RSS, любая программа, ориентированная на данный формат, может загружать сведения об обновлениях web-сайтов. И далее, в зависимости от результата, выполнять определенные действия, например, автоматически обновлять список актуальных информационных сообщений.

Форматы RSS

Итак, RSS — это формат данных и технический стандарт, который обеспечивает интегрированный доступ к новостной информации, представленной на сайтах, специально созданный для обмена их контентом. RSS имеет несколько независимых версий. Развитие данного формата началось с версии 0.90, разработанной компанией Netscape. Но так как он считался очень сложным, Netscape представила его упрощенную версию — 0.91, которую после завершения бума портальных технологий передала компании UserLand Software.

Одновременно с Netscape еще одна организация — RSS-DEV Working Group —создала свою версию RSS, близкую к исходному варианту RSS 0.90. Данный формат 1.0., помимо всего прочего, максимально приближен к стандарту RDF. Компания же UserLand решила развить ветку 0.9х и создала версии 0.92, потом 0.93, 0.94 и, наконец, 2.0. (Подробнее о форматах можно почитать на
http://www.purplepages.ie/RSS/netscape/rss0.90.html,
http://my.netscape.com/publish/formats/rss-spec-0.91.html,
http://backend.userland.com/rss092,
http://web.resource.org/rss/1.0,
http://backend.userland.com/rss).

Все эти версии отличаются друг от друга, но объединяет их то, что они ориентированы на один тип информации и содержат одинаковые базовые поля. Основной блок информации (channel), состоящий из названия (title), ссылки (link), данных о языке новостей (language) и логотипа (image). Затем идет список самих новостей, где в каждом пункте (item) указывается заголовок (title), краткое описание (description) и ссылка на новость (link).

Программы для работы с RSS

Пользователи могут получить доступ к данным в формате RSS с помощью специальных программ, называемых RSS-агрегаторами. Программа-агрегатор (или парсер) позволяет группировать публикации из различных источников. Таким образом появляется возможность одновременно отслеживать появление новостей на всех сайтах, без посещения каждого ресурса в отдельности. При этом, конечно же, отпадает необходимость загружать из Сети лишнюю информацию, относящуюся, например, к оформлению web-страниц.

Программы-агрегаторы выполняют синтаксический разбор данных, представленных в формате RSS. После чего они могут реализовывать любые действия по отношению к этим данных, к примеру, отсылать их по электронной почте либо отображать на выбранном ресурсе. В настоящее время наиболее популярны агрегаторы, позволяющие собирать RSS разных сайтов вместе. При этом пользователь получает возможность одновременно следить за появлением обновлений на всех сайтах сразу и читать их краткое содержание, не посещая каждый ресурс в отдельности.

Теперь давайте рассмотрим несколько таких программ.

FeedReader 2.5

Feedreader — это свободно распространяемая программа для Windows (GPL-лицензия), позволяющая читать данные в формате RSS версий 0.9, 0.91, 1.0, а также различнуе информацию от таких систем, как Dublin Core и Slashbac. Утилита очень удобна в использовании, обеспечивает работу с информацией на русском и украинском языках, обладает широким кругом сервисных возможностей. FeedReader версии 2.5 можно загрузить по адресу http://sourceforge.net/project/showfiles.php?group_id=70179, размер инсталлятора — 1250 Kб.

Syndirella 0.9b

http://www.yole.ru/projects/syndirella

Syndirella (Синдирелла) может показывать информацию с обычных web-страниц, а также отображать данные, представленные в формате RSS. Программа реализована на платформе .NET и функционирует в среде операционных систем Windows 98, Windows 2000 или более новых. Требует установки Internet Explorer версии 5.0 или выше. Для работы программы необходимо инсталлировать библиотеку Microsoft .NET Framework runtime версии 1.0 (20 Мб). Однако если эта компонента уже установлена, то сама программа Syndirella займет всего 250 Кб. Адрес для загрузки: http://www.yole.ru/projects/syndirella.

K.R.S.S. 2.6

http://krss.sourceforge.net

K.R.S.S., или KDE's Rich Site Summary viewer — приложение для Linux, позволяющее отображать данные в формате RSS на экране в виде HTML-страниц. Есть возможности по настройке вида отображения при помощи Cascading Style Sheets (CSS) и установки специальных фильтров новостей. Адрес для загрузки программы: http://krss.sourceforge.net/downloads.html, размер файла — 394 Kб.

По следующим адресам можно найти еще несколько программ для работы с RSS:

http://blogspace.com/rss/readers;

http://www.meberle.com/personalaggregators.html;

http://www.lights.com/weblogs/rss.html.

В настоящее время продолжают появляться многочисленные инструментальные средства для создания программ работы с RSS-данными. Например, для разработки программ-парсеров на языке Perl предназначен модуль XML::RSS. После загрузки последнего с сайта http://search.cpan.org для его инсталляции на сервере достаточно выполнить команду:

[root@server]#perl -MCPAN -e 'install "XML::RSS"'

Новостные фиды

Фид (feed) — это файл в формате RSS, в который записывается новостная информация ресурса (точнее, анонсы обновлений). Соответственно, если есть необходимость оперативно отслеживать изменения на сайте, не посещая самого сайта, то можно подписаться с помощью программы-агрегатора на фид.

Например, недавно у пользователей портала UAport (http://uaport.net) появилась возможность получить интегрированный доступ к потоку украинских и российских новостных сообщений из Интернета с помощью RSS-шлюза с системой InfoStream. Последняя предоставляет интегрированный доступ к информации, получаемой более чем с 350 web-сайтов и сгруппированной по тематикам, языкам, странам, источникам. Объем данных, обрабатываемых в рамках технологии InfoStream, сегодня превышает 10 000 сообщений в сутки. RSS-каналы UAport могут генерироваться системой по запросам пользователей к поисковой системе.

В качестве примера новостного фида формата RSS 0.91 приведем динамический файл, формируемый по адресу http://uaport.net/cgi-bin/infostream.rss и имеющий следующий вид:

Для экспорта новостей с популярного российского сайта Лента.Ру можно воспользоваться RSS-фидом, который обновляется не реже одного раза в 20 минут. Его постоянный адрес: http://lenta.ru/l/r/EX/import.rss.

Еще в прошлом году преобладало мнение, что RSS — это формат, используемый в основном на иностранных сайтах, однако сегодня ситуация резко меняется. Например, обширный перечень RSS-фидов русскоязычного сегмента Интернет находится по адресу http://my.yandex.ru/rss.opml. Наиболее интересные новостные фиды из этого списка можно увидеть в прилагаемой врезке.

Заключение

Ускоряющийся темп жизни требует оперативного получения полной и актуальной информации, которая должна учитываться при принятии управленческих, маркетинговых, производственных решений. Современная RSS-технология интегрированного доступа к данным обеспечивает пользователям Интернета надежный и простой доступ к оперативной информации, размещаемой на информационных сайтах.

Перспективность и популярность RSS как стандарта обусловлена, прежде всего, его доступностью и простотой. Сегодня практически все ведущие мировые информационные сайты, ╚живые журналы╩, работающиe в Интернете, используют RSS в качестве инструмента оперативного представления свежей информации.



P e к л а м a: [an error occurred while processing this directive][an error occurred while processing this directive] File not found. [an error occurred while processing this directive]