2 сентября 2002 г., Журнал "Мир связи"

Интернет-старатели

Как сориентироваться в информационном потоке, растущем в виртуальной среде подобно снежному кому? На смену традиционному поиску по ключевым словам идут новые сетевые службы обработки контента.

Электронные данные, накопленные в виртуальных глубинах многопользовательскими усилиями, подобны золотоносным приискам. Как часто извлечение знаний оттуда напоминает кропотливый и не всегда успешный труд, пусть и не в экстремальных условиях тайги или Крайнего Севера. Зачастую структуры, тенденции и взаимосвязи понятий не лежат на поверхности, и даже поиск нужных данных в масштабах одного предприятия порой напоминает труд старателей-золотодобытчиков. Сегодня, когда объем информационных веб-ресурсов превышает 2 млрд. страниц и Сеть превратилась во всемирную медиа-среду, пользователи проводят множество часов, посещая сотни сайтов в погоне за новыми данными по определенной тематике. Сбор, фильтрация и хранение информации в Сети связаны с необходимостью, во-первых, определенных затрат времени, во-вторых, требуют достаточной квалификации персонала и, к сожалению, не могут учитывать всех особенностей построения структуры представленных там сведений. Это, в свою очередь, приводит к тому, что полученные выборки не всегда являются показательными.

Ориентация в новостной информации с помощью традиционных информационно-поисковых систем весьма затруднительна, так как периоды индексации у таких систем доходят до полугода. Например, система AltaVista в 2001 году не обновляла ни один из региональных индексов и даже главную базу данных в течение нескольких месяцев, за исключением тех сайтов, за индексацию которых было заплачено. Вместе с тем часть базы данных системы AltaVista еще совсем недавно индексировалась оперативнее, чем даже у Google.

Несмотря на то, что практически на всех известных поисковых порталах (Yahoo!, AltaVista, Lycos, Excite и т. д.) есть новостные разделы, они недостаточно оперативны, зависят от выбора источников, у них слабые поисковые возможности. Нет у них и средств уведомления о появлении новой информации.

Лидеры зарубежного мониторинга

В настоящее время оптимально решить задачи ориентации в новостном контенте позволяют информационные сетевые службы нового типа . сетевые интеграторы новостей, которые чаще всего используют системы мониторинга новостей в веб-пространстве как базу для своей работы.

Технология мониторинга и последующего объединения новостей подразумевает "обучение" программ сбора структуре выбранных источников, сканирование информации, ее нормирование, приведение к внутрисистемному формату (в последнее время все чаще к XML), классификацию и доставку пользователям различными каналами (e-mail, WWW, WAP, SMS и др.).

В качестве приложений могут выступать ставшие уже традиционными полнотекстовые информационно-поисковые системы, а также системы контент-анализа, автоматического выявления смысла. Вот лишь некоторые из этих систем мониторинга Интернет-новостей.

В прошлом году поисковый портал AltaVista обогатился новой возможностью поиска новостных публикаций. Ранее пользователям было очень трудно их обнаружить из-за того, что поисковая машина находила слишком много ссылок по теме, не имеющих отношения к новостям. И новая технология поиска была лицензирована у американской компании Moreover (сервис доступен по адресу www.moreover.com/site/products/features/index.html). Теперь новости стали помещаться в базу поисковика через 15 минут после их появления в Интернете. Благодаря этой технологии AltaVista всего за несколько лет удалось получить таких клиентов, как National Semiconductor, Wells Fargo и Ernst & Young, а также лицензировать свою методику у партнеров в области построения порталов Hummingbird, PeopleSoft, Microsoft Sharepoint Server и у поисковых служб AltaVista и Inktomi. Сначала выполняется оценка информационного содержания веб-ресурса и построение настроечных профилей, описывающих данный ресурс. Редакторы в автоматизированном режиме оценивают ресурсы и создают профили, соответствующие информационным потребностям клиентов. Затем веб-ресурсы автоматически сканируются в соответствии с настроечными профилями, происходит преобразование информации в формат XML с добавлением тегов (даты, времени, имени и типа источника). Ищутся повторы и устраняется дублирование. В соответствии с заданными правилами выполняется автоматическая классификация информации и загрузка в базы данных. Служба обработки запросов учитывает содержательную часть и требования к регламенту доставки, после чего происходит вывод и доставка информации клиентам на их веб-сайты, в интранет-сети, на входы различных программных приложений.

Moreover имеет свое патентованное решение - Connected Intelligence (CI) для интеграции релевантного (соответствующего запросам) полного контента в корпоративные сети или порталы. Передача осуществляется порциями от 3000 источников в режиме реального времени, классифицируется и разделяется по темам, обновляется каждые 15 минут. Возможна адресная доставка информации (CI-Watch) и режим доступа (CI-Database) к компактному обзору непрерывно индексируемой полнотекстовой базы данных. Эти сведения могут также интегрироваться клиентом в корпоративную сеть, на портал, сайт или передаваться программному приложению.

Поисковый портал Northern Light (www.northernlight.com) известен ресурсом Special Collection - полнотекстовой базой из нескольких миллионов документов, собранных более чем из 7000 источников. Сервис Current News обеспечивает поиск глубиной в две недели в информационных материалах 117 источников из 62 новостных кана-лов и сетевых служб, включая AP Online, UPI и PR Newswire, а также из большого количества международных источников в удоб-ных для пользователей форматах. А SinglePoint. . это доступ к нескольким источникам портала и собственному контенту клиента с помощью единого поискового интерфейса.

Компания OneSource Information Services (www.onesource.com) известна как крупнейший интегратор бизнес-информации для профессионалов. Она получает и затем распространяет сведения из 25 информационных каналов, охватывающих свыше 2500 источников. Клиенты компании . American Express, BankAmerica, Boeing, British Telecommunications, Deloitte & Touche, Ernst & Young, Harvard Business School, Merrill Lynch, Oracle, SAP и др.

Бизнес прежде всего

Все большую известность получает технология компании Autonomy (www.autonomy.com) для автоматизированного управления информационными потоками и мониторинга в Интернете. Удачно используется распознавание образов, байесовский подход к принятию решений и теория информации. Обнаруживая повторяющиеся шаблоны, Autonomy коррелирует (соотносит) образы и определяет их отличие среди большого количества документов, не применяя при этом никаких специфичных правил (например, указания на то, что пробелы используются для разделения слов), и вне зависимости от языка. Уникальная технология при работе с неструктурированной информацией позволяет понять основную концепцию документа. Она не производит поиск по словам и успешно работает на 36 языках различной грамматической и синтаксической основы.

Несмотря на цену внедрения в несколько сотен тысяч долларов, среди пользователей Autonomy - свыше 400 корпоративных клиентов, в том числе и Barclays Bank, British Telecom, General Motors, Compaq, Reuters, BBC, British Airways, Ericsson, NASA, Volkswagen, France Telecom, US Army, Internet.com.

Пожалуй, самый яркий представитель направления B2B (бизнес для бизнеса) в информационной сфере - компания Comtex (www.comtex.com), основными клиентами которой являются такие интеграторы новостей, как Northern Light Technology, OneSource, Screaming Media, Compuserve, Vertical Net и др. Comtex уже 20 лет специализируется на электронной обработке и достав- ке всемирных новостей и других информационных материалов. Она объединяет ресурсы свыше 100 солидных источников, крупнейших информ- агентств, среди которых ИТАР-ТАСС, Xinhua, Associated Press. Через Интернет, Wall Street и рынок корпоративных реселлеров распространяется около 20 тыс. сообщений от 10 тыс. компаний не одной тысяче клиентов во всем мире, а те в свою очередь доносят ее миллионам конечных юзеров.

"Пространство новостей" - это широкий спектр информации о финансовых, вертикальных (отраслевых) рынках, макроэкономике и всемирных новостей. "Главная страница" (Front Page) обеспечивает показ первых полос основных газет США, глобальных новостей от ведущих ежедневных изданий. Редакторы выбирают десять самых главных новостей из 500 источников по категориям: общество, государство, международные отношения, финансы, бизнес и спорт. Система обработки контента Comtex Equinox пропускает через себя поток в 20 тыс. статей ежедневно. Каждый материал дополняется метаданными и ключевыми словами.

Службой Comtex применяется официальный формат доставки (обмена) информацией NewsML на различные платформы или устройства: WWW, мобильные телефоны, интерактивное телевидение. Comtex использует две основные технологии . Virtual Private Network (VPN) и интернетовскую FTP-технологию как более экономичную для доставки материалов через Сеть. А в первом случае после соединения серверов Comtex и клиента формируется защищенный виртуальный туннель для безопасной передачи данных.

Российские аналоги

Крупнейшее в России интегрированное агентство "Интегрум" (www.integrum.ru) обеспечивает сбор в единый массив электронных версий коммерческих, статистических и новостных информационных продуктов. Контент-механизмом службы является авторская разработка агентства . лингвистическая поисковая система "Артефакт", основанная на сложных морфологичесих алгоритмах. В 2700 базах данных службы сагрегировано 75 млн. документов, ежесуточно пополняющихся на 10 тыс. единиц. Сервис "Частный информационный агент" осуществляет поиск и доставку материалов подписчику по заданным им ключевым словам. Каждый запрос обрабатывается от одного до трех раз в сутки. Integrum-Teletype позволяет просматривать новостные ленты 28 российских и зарубежных информагентств в режиме реального времени, а "Персональная газета" - вести круглосуточный мониторинг по любой проблематике.

"Яндекс" открыл проект "Яндекс.Новости" (news.yandex.ru), к которому уже присоединились свыше 50 Интернет-изданий. На нем появляются заголовки материалов со ссылкой на сервер партнера в базе поиска новостей, а те в свою очередь размещают на своем сервере рекламу "Яндекса". Пользователь может задать детализированный запрос, выбрав категорию новостей и информационных источников, временной период или новости, наиболее близкие по смыслу. Возможна и свободная тематическая рассылка новостей по любому из предлагаемых системой вариантов.

Система WebScan (webscan.ru) проводит мониторинг ряда общественно-политических и ИТ-порталов, мебельного рынка. Ежесуточно сканируются и анализируются свыше миллиона документов, в том числе десятки тысяч новостных сообщений. Входные информационные фильтры устраняют в отчетах устаревшие сведения и неинформативные данные. Предлагается и ежемесячный анализ информационной активности вашей компании в Сети: по количеству упоминаний и эмоциональной направленности, охвату сетевых ресурсов, аудитории. На основе контекста упоминаний проводится диагностика имиджа компании и сравнительный анализ с ближайшими конкурентами.

Новостная артель по-украински

"Паук Новостей" (topnews.com.ua) - специализированный ресурс по сбору лент новостей в украинской части Сети. Они обновляются динамически в режиме реального времени. На сайте можно просмотреть информацию по тематикам и собственным настройкам пользователя на его информационные потребности. При этом поиску информации не уделено должного внимания, по-видимому, этот режим считается вспомогательным.

Владелец сайта может наполнить его новостной лентой любого объема с "Паука новостей", обратившись по указанному адресу. В настоящее время по мере поступления новостей предоставляются пакеты доставки по e-mail и с занесением их в локальную базу данных, по протоколу HTTP посредством межсетевого взаимодействия или путем непосредственного доступа к базе данных проекта.

Технология мониторинга открытых Интернет-источников крупнейшей украинской поисковой системы "Мета" (meta-ukraine.com) позволяет осуществлять поиск на трех языках, получать информацию с заданного списка веб-серверов, компактно упаковывать ее для хранения на диске. Пользователь, помимо санкционированного доступа к серверу для поиска информации в режиме он-лайн, может задать набор ключевых слов по интересующей его теме, и новые документы из базы будут автоматически отсылаться ему по e-mail. Как сообщил председатель правления ЗАО "Мета" Юрий Назаров, создана и корпоративная поисковая система "Мета". Это набор готовых программных компонентов (транспортная, индексирующая системы, лингвистические модули, поддержки форматов документов, сбора статистики и др.), которые в зависимости от потребностей компании-заказчика объединяются в целостный комплекс. При проектировании такой поисковой системы речь идет не только о возможности поиска по ресурсам локальной сети, но и о создании единого структурированного массива информации фирмы с многоуровневым разграничением доступа к документам. Система обеспечивает полную конфиденциальность внутренней информации, формирует резервные копии и уведомляет о появлении интересующего документа в локальной среде путем e-mail или SMS. Она не требует больших аппаратных вложений и ежесуточно индексирует свыше миллиона документов, тратя на обработку запроса не более одной секунды в многопоточном режиме.

Разработка InfoStream (uaport.net/service/stream.shtml) информационного центра ElVisti стала инструментальной базой Интернет-холдинга UAport, основная концепция которой выражена в девизе "Объединяя лучшее, найти главное". Ядром системы обработки контента является полнотекстовая информационно-поисковая система InfoReS-XL, обеспечивающая обработку информации в трех основных режимах: избирательного распространения, интерактивного доступа к полнотекстовым базам данных, контент-мониторинга. Если пользователь хочет получать новостную информацию по интересующей тематике (она определяется на языке запросов с помощью ключевых слов, логических операторов, скобок и задания контекстной близости) по e-mail, SMS или встроить постоянную подборку в свою веб-страницу, то к его услугам сервис Stream-client. После того как запрос отработан, форматы представления информации выбраны и вы решили, что условия сервиса вам подходят, свяжитесь со службой поддержки абонентов и закажите услугу. Создатели предусмотрели для новичков тестовый период эксплуатации сервиса. Недавно открыт новый подраздел "Взаимосвязь тем", в котором ежечасно обновляется таблица, отражающая связь новостных тем между собой в потоке информации из трех сотен источников.

WAP-портал холдинга UAport (wap.uaport.net) через Stream-шлюз обеспечивает просмотр на экране мобильного телефона новостей с десятков веб-сайтов. Они сгруппированы по тематикам, странам, источникам. Это еще один из возможных вариантов доставки информации.

А решение Stream-corporate служит для интерактивного доступа к базам данных текущей и ретроспективной информации в рамках корпоративной сети. Для этого создан информационный кэш ElVisti, который формируется из собранной и приведенной к единому внутрисистемному формату информации. После установки системы доступа к этому хранилищу в автоматическом режиме практически не требуется усилий на ее администрирование, чем достигается существенная . в десятки раз . экономия Интернет-трафика. Это решение в ряде случаев становится незаменимым инструментом в работе аналитических служб, коммерческих структур и подразделений государственных органов.

Какой бы из ныне существующих автоматизированных способов обработки информационной лавины вы ни избрали, сегодня это верный способ оказаться впереди конкурентов.

Дмитрий Ландэ,
заместитель директора Информационного центра "ЭЛВИСТИ"


P e к л а м a: