Опубликовано в ЧИП 5/2001
В поисках горяченького
Как найти новость в Internet? Конечно, можно самостоятельно перебрать сайты СМИ, но это будет долго и утомительно. Проще воспользоваться одной из специализированных служб, способной в считанные минуты собрать новости из сотен источников
Сеть Internet стала фактически самым оперативным источником новостной информации. Однако поиск и обнаружение необходимого нового факта в Сети становится еще более сложной задачей, чем нахождение какой-либо другой информации из имеющегося двухмиллиардного архива файлов. Если файл был и остается в Web-пространстве, то он с большой вероятностью заиндексирован каким-либо информационно-поисковым сервером (ИПС) и, следовательно, анонсирован и доступен. Совсем другая ситуация с новостной информацией. Она может быть заиндексирована традиционными ИПС и оказаться доступной в тот момент, когда уже теряет свое основное качество - перестает быть новостью. Ведь известно, что период "обхода" ресурсов у традиционных универсальных ИПС колеблется от нескольких недель до полугода. Вместе с тем, количество новостной информации только в украинском и российском сегментах Сети превышает 20 тысяч записей в сутки. С точки зрения обновляемости информации, все Internet-пространство можно с достаточной долей условности разделить на две составляющие - стабильную (Stab) и динамическую (New). Стабильная составляющая Сети содержит информацию "долговременного" плана, например монографии, галереи, коллекции или архивы. Динамическая составляющая содержит постоянно обновляемые или новые ресурсы. Некоторая часть этой составляющей со временем добавляется в стабильную, в то время как большая часть "исчезает" из пространства Сети. В традиционной сетевой поисковой системе информационное пространство, состоящее из стабильной и новостной части и индексируемое этой ИПС, меняет свое наполнение через N дней: некоторые новостные документы уходят в стабильную часть в виде архивов, а остальные исчезают (Old). В этом случае пользователь при обращении к ИПС получает соответствующие запросу ответы из стабильной части, устаревшие ссылки из новостной части и ничего из обновленной новостной части. Пользователь часто часами проводит время в Сети, посещая сотни сайтов с целью получения данных по определенной тематике. Ведь ни одна из традиционных поисковых систем в достаточном объеме не помогает в поиске актуальной новостной информации, находящейся в динамической части Сети. Решение этой задачи требует создания своеобразного интеллектуального посредника между пользователем и Internet. Подобный посредник (или агент новостей) должен выполнять всю "черновую" работу по сбору, селекции информации и обеспечивать предпосылки для создания документальной базы данных.
Системы агентов новостей Принцип индексирования, используемый посредником, несколько отличается от традиционных поисковых систем: индексируется не все пространство Internet, а только его новостная часть. При этом, за счет относительно небольшого объема этих данных, частота индексирования выбирается достаточно малой - от нескольких минут до нескольких часов (в зависимости от источника). В результате через N дней обрисовывается такая ситуация: пользователь получает необходимые ответы по новостной и по "устаревшей" новостной части, подтвержденные документами из собственной архивной базы данных, но не получает полной выборки документов из стабильной части информационного наполнения Сети.
Именно электронные агенты по сбору информации смогут обеспечить надежную навигацию в ресурсах Internet в будущем. И некоторые агенты новостей уже сегодня работают в Internet. Их возможности относительно невелики, однако эти программы возникли как результат многолетних исследований в области искусственного интеллекта, поэтому большинству из них присущи такие качества, как настраиваемость и обучаемость.
Реализации САН Системы агентов новостей можно условно разделить на два типа: серверные и клиентские. Серверные САН устанавливаются на серверной части центров информационных ресурсов (в идеале на площадке провайдера) и сканируют все известные им новостные ресурсы, индексируя их, и в некоторых случаях сохраняя оригиналы в собственной базе данных. Есть и другой механизм сбора информации серверной САН, когда с каждым из источников информации заключается специальное взаимовыгодное соглашение (об объемах, сроках, форматах подачи новостей и т. д.). В этих случаях информация от некоторого относительно небольшого количества агентств, газет, журналов оперативно аккумулируется в не очень объемных, но достаточно качественных базах данных. При использовании серверных САН агентом конечного пользователя является поисковое предписание, которое может трактоваться как запрос и процедура его обработки. Агенты новостей могут реализовываться в виде поисковых предписаний, задаваемых в интерактивном режиме, либо в виде подписки пользователя на типовой или специальный уникальный запрос с целью получения ответов по электронной почте.
Этот робот обеспечивает обработку запросов сразу на десяти поисковых машинах (AltaVista, Excite, Infoseek, Lycos, WebCrawler, LookSmart, Thunderstone, GoTo.com, About.com, DirectHit). Но Metacrawler лишь с большой натяжкой может считаться системой агентов новостей: его область поиска - скорее стабильная составляющая Internet. Сегодня большинство крупных традиционных информационно-поисковых серверов открыли службы, в которых в той или иной мере реализуется концепция САН. Так Yahoo! был создан сайт Daily News, на котором собираются и публикуются новости от Associated Press, Reuters и других сетевых источников. Новостной ресурс AltaVista является результатом работы технологий компании Moreover, которая только недавно стала предоставлять свои механизмы по поиску новостей другим компаниям. Механизмы эти достаточно мощные: каждые 15 минут выполняется опрос более 2400 новостных сайтов. Lycos на своем сайте новостей News Bot приводит информацию Reuters и в незначительной мере еще из нескольких источников. Вместе с тем, зарегистрированным пользователям высылаются персонализованные подборки новостей. Очень интересен сайт новостей News Tracker службы Excite, который по праву позиционируется в качестве системы персонализированных агентов новостей, обеспечивая для своих подписчиков поиск и доставку необходимой им информации от нескольких сотен интерактивных СМИ.
Специализированные инструменты В то же время, наряду с традиционными ИПС общего назначения существуют системы, изначально ориентированные на сбор, обработку, предоставление поиска и распространение новостной информации. Среди них можно назвать, например, сайт NewsHub, содержание которого обновляется каждые 15 минут. Роботы NewsHub сканируют сотни источников, группируя сообщения по 10 тематическим направлениям. Служба Total News обеспечивает поиск в массиве документов, сгруппированном по 10 категориями, полученном от информационных партнеров, среди которых ABC News, CNN, FOX News и Yahoo News. На сайте компании News Index, которая обеспечивает настройку своей САН на 300 источников информации, реализовано неколько перспективных технологических решений, среди которых создание персональных информационных агентов, обеспечивающих доставку заголовков запрошенных тематических сообщений по электронной почте.
Аналогичное назначение имеет сайт "Аккумулятор новостей". Пользователь имеет возможность просмотра новостей из различных источников по таким темам, как экология, автомобили, наука и техника, события, медицина, экономика и финансы. К сожалению, адаптируемость инструментов рассылки ограничивается названными темами. В Украине значительные новостные ресурсы аккумулируются на сайте "Паук Новостей". Здесь представлены сгруппированные в категории новости примерно из сотни сетевых СМИ. На сайте помимо поиска имеется возможность подписки на рассылку средствами Subscribe.ru. Российское информационное агентство Integrum techno разработало сервис "Частного информагента", который позволяет осуществлять поиск и доставку материалов подписчику по заданным им ключевым словам. Создавая "Частного информагента", абонент системы определяет стратегию фильтрации информации, состав информационных ресурсов, который необходимо учитывать (из более 1000 возможных источников), время и периодичность доставки, а также перечень адресатов-получателей его тематического мониторинга. Результат работы "частных агентов" - это документы, которые высылаются пользователю по электронной почте. Индивидуальный интерактивный мониторинг периодических изданий позволяет осуществлять и другая российская компания - "Гарант-Парк". Отбор необходимых пользователю материалов выполняется на основе анализа сотен федеральных и региональных информационных источников. Совсем недавно один из российских поисковых сайтов Яndex также открыл новостной сервис: его система поисковых агентов охватывает около сорока новостных сайтов-партнеров. В Украине специалистами Информационного центра "ЭЛВИСТИ" разработана специальная потоковая технология персональных информационных каналов (Stream). Система, построенная на базе этой технологии, включает две основные составляющие: stream-центр сбора и первичной обработки данных и stream-центр предоставления интерактивного доступа к информационным массивам. Первая составляющая обеспечивает автоматический сбор данных с определенного заранее перечня источников с помощью программы-робота, настройку информационных роботов на отдельные сайты, классификацию данных, их избирательное распределение и автоматизированную работу пользователя на локальном рабочем месте. Вторая составляющая служит для автоматизированного создания оперативных и ретроспективных баз данных и обеспечения доступа пользователей и администраторов информационных ресурсов к этим базам.
Клиентские приложения Клиентские САН представляют собой приложения, устанавливаемые на компьютерах пользователей и облегчающие поиск необходимой информации. Они используют, как правило, целый набор традиционных поисковых систем и каталогов. В качестве примера рассмотрим несколько таких программ. QueryN MetaSearch 2.2 позволяет вести поиск не только по имеющимся в базе серверам, но и добавлять новые. Программа позволяет настраиваться на такие параметры каждого сервера, как наименование и адрес источника, начальная и последующие страницы, определение логических операторов. Subject Search Spider 2.0 представляет собой профессиональный инструмент информационного поиска, который использует около 64 поисковых машин и тематических серверов. Программа способна создавать библиотеку отчетов по обработанным запросам, обеспечивая офф-лайновый просмотр ссылок - трассы работы системы. Пожалуй, наиболее известной утилитой этого класса является Copernic 2000. Программа позволяет искать информацию, "паразитируя" на таких поисковых машинах, как AltaVista, DejaNews, Euroseek, Excite, HotBot, Infoseek, Lycos, Yahoo!, используя одновременно более 30 информационных ресурсов. Существуют также системы агентов новостей, предполагающие наличие сразу двух частей - клиентской и серверной. В этих случаях на серверной части выполняется сбор и обработка информации, а на клиентской - реализуется интерфейс пользователя, то есть настройка и запуск агента. Среди таких систем можно выделить известную российскую САН News Alert. Система постоянно сканирует новости из многочисленных российских Web-ресурсов и обеспечивает их избирательное распространение в режиме реального времени. Клиентская программа News Alert имеет размер всего 50 КБ, обеспечивая оповещение о новостях и показ их анонсов по желанию пользователей. Новостные агенты начали получать бурное развитие совсем недавно, хотя принципы их построения были развиты еще в 70-80-е годы. Возможность настройки взаимодействия агентов с Сетью, которое ориентировано на интересы и потребности каждого конкретного пользователя, делает их очень востребованным продуктом, особенно сегодня, когда на повестке дня стоит персонализация Internet.
Дмитрий Ландэ,
|