ИНФОРМАЦИОННО-ПОИСКОВЫИ СЕРВЕР INFORES
ДЛЯ РАБОТЫ В СРЕДЕ WWW
Д.В.Ландэ, кандидат технических наук
В.Ю.Зубок, инженер
"Я видел будущее корпоративных
информационных систем -
и это Web"
Джеральд М. Грочау
1. Общие сведения
В конце 80-х годов произошел резкий старт объединения
компьютеров всего мира в сеть мирового масштаба - Интернет. Эта
экспансия продолжается и по сей день. Однако лишь в середине
девяностых годов началось широкомасштабное коммерческое
использование этой сети и ее услуг.
Потребовалось около 25 лет, что бы сеть Интернет вышла за
пределы военных и академических учреждений. Сейчас на базе
Интернет-технологии построено огромное множество файловых
архивов, справочных систем и баз данных. Венцом этой технологии
на данный момент является так называемая "всемирная паутина"
(World Wide Web, WWW). Серверы WWW используются для самых
различных целей (электронные газеты, журналы, компьютерные игры),
но одно из самых перспективных направлений развития WWW -
построение на их базе информационно-поисковых систем (ИПС).
Во-первых, WWW предоставляет средства для прекрасного
оформления документов, решая с помощью новейших версий языка
гипертекстовой разметки HTML (Hypertext Markup Language) задачи
пользовательского интерфейса, а во-вторых обеспечивает доступ к
многочисленным базам и банкам данных. Система WWW включает
средство интеграции приложений CGI (Common Gateway Interface),
обеспечивающее возможность обмена данными между пользователем,
как правило, с машины-клиента на базе программы просмотра и
интерпретации HTML (броузера HTML) и программной системой на
сервере, в том числе с прикладными программами, СУБД,
информационно-поисковыми системами. Сценарии в соответствии со
спецификациями CGI обеспечивают развитие сетевых средств путем
включения различными Internet-провайдерами своих приложений и
предоставления их для использования в глобальной открытой сети.
Использование технологии разработки CGI-сценариев помогает
строить для пользователей WWW (как для локальных корпаративных,
так и для глобальных открытых сетей) современный дружественный
интерфейс доступа к базам данных, интегрируя возмрожности
информационно-поисковых систем. Средства WWW обеспечивают доступ
к огромным массивам информации, ориентация в которых сродни
поиску в лабиринте (или точнее распутыванию паутины). При этом
доступны как отдельные рекламные объявления или презентационные
электронные страницы, так и базы данных большого объема, средства
обеспечения доступа к которым интегрируются в WWW.
Одним из источников информации, доступных в сети Internet
являются телеконференции Usenet, возникшие на заре становления
современных сетей как средства общения между специалистами,
заинтересованными общей тематикой. Файловые области на сервере, к
которому имели доступ на чтение и запись все желающие
обмениваться информацией по определенным темам были названы
телеконференциями (группами новостей).
Сегодня телеконференции USENET доступны на большинстве узлов
Интернет. Реализован механизм обмена телеконференциями между
узлами сети, а также механизм предоставления доступа к
телеконференциям любоми пользователю сети.
При этом, с точки зрения проектировщика ИПС, система
телеконференций Usenet является динамичной распределенной нечетко
структурированной базой данных. Так месячный архив доступной
постоянно обновляемой информации превышает десяток гигабайт.
Естественно возникает вопрос - какими средствами обеспечить
эффективный доступ к информации такого рода? Очевидно, таким
средством должна быть информационнно-поисковая система,
ориентированная на работу с базами данных с названными
характеристиками. На диалоговую обработку таких баз данных
ориентирована информационно-поисковая система Infores, которая
интегрирована с помощью соответствующего сценария CGI с сервером
WWW информационного центра "Електроннi Вiстi".
2. Архитектура документальных ИПС
Существует несколько подходов к формированию архитектуры ИПС,
нашедшие свое воплощение в реальных системах. Одной из наиболее
удачных реализаций структуры базы данных ИПС на майнфреймах фирмы
IBM признана база данных системы STAIRS (Storage and Information
Retrieval System), которая благодаря изначально удачным
архитектурным решениям до сих пор продолжает развиваться. Следует
отметить, что известная современная инфорамционно-поисковая
система WAIS (Wide Area Information Systems) обладает во многом
сходной архитектурой. База данных информационно-поисковых систем
традиционной архитектуры состоит из следующих основных файлов:
- Текстовый файл, - содержащий текстовую часть всех
документов в виде, близком к форме вывода на терминал;
- Файл указателей текстов, - включающий форматные поля всех
документов и указатели местонахождения документов в текстовом
файле;
- Словарный файл, - cодержащий все уникальные слова,
встречающиеся в полях документов, то есть те слова, по которым
может осуществляться поиск. Слова могут быть связаны в
синонимические цепочки.
- Инверсный файл, - содержит списки номеров документов и
координаты встречаемости отдельных слов в полях документов.
Процессы, происходившие при поиске информации в базе данны
STAIRS, сегодня реализуются средствами современных СУБД и ИПС
документального типа. Поиск термина в базе данных осуществляется
следующим образом:
1. Происходит обращение к словарному файлу, по которому
определяется, входит ли слово в состав словаря базы данных, и
если входит, то определяется ссылка на цепочку появлений этого
слова в документах.
2. Происходит обращение к инверсному файлу, по которому
определяются координаты всех вхождений термина в базу данных.
3. По номеру документа происходит обращение к записи файла
указателей текстов. Каждая запись этого файла соответствует
одному документу в базе данных.
4. По номеру документа происходит прямое обращение к фрагменту
текстового файла - документу и последующий его вывод.
В случае, когда обрабатывается не один термин, а некоторая их
комбинация, в результате отработки поиска по каждому термину
запроса формируется массив записей, соответствующих вхождению
этого термина в БД. После окончания формирования массивов
результатов поиска происходит выявление релевантных документов
путем выполнения теоретико-множественных операций над записями
этих массивов.
3. Функционирование Infores в среде WWW (взгляд пользователя)
При работе с информационно-поисковой системы Infores каждый
пользователь сервиса WWW, имеющий на своем рабочем месте
программу просмотра WWW-страниц (HTML-броузер), например,
Netscape Navigator, при соединении с WWW-сервером, на котором
расположена информационно-поисковая, система получает приглашение
типа:
+-----------------+
| |
| |
+-----------------+
При выборе соответствующего пункта меню:
"Информационно-поисковая система INFORES"
пользователю будет предложено заполнить экранную форму,
являющуюся поисковым предписанием:
+-----------------+
| |
| |
+-----------------+
Заполнив эту форму, выбрав базу данных, определив ключевые
слова и связывающие их операторы пользователь завершает этап
формирования запроса. При этоим запрос по команде "Старт"
передается поисковой процедуре информационно-поисковой системы.
Поисковая процедура обрабатывает запрос и формирует список
соответствующих запросу (релевантных) документов, передающийся
программе разметки и вывода.
Программа разметки и вывода на основании списка релевантных
документов формирует текст в формате HTML, возвращаемый
программе-броузеру на компьютере абонента. При этом программа
вывода реализует следующие функции: выделение некоторых
фиксированных в рекомендациях RFC 822 частей документов из базы
данных (заглавие, дата формирования, отправитель), группировку
заглавий релевантных документов и формирование гипертекстовых
ссылок на сами документы, гипертекстовую нормирующую разметку
документов, выделение найденных ключевых слов и т.д. На экране
пользователя отображается список заглавий найденных документов,
выбрав любое из которых и подтвердив это нажатием кнопки мыши,
пользователь может видеть отформатированный документ. Таким
образом, сама выдача ИПС может рассматриваться как оформленная в
виде гипертекста подборка документов, удовлетворяющая некоторым
поисковым критериям. Стандартный HTML-броузер позволяет проводить
в полученной подборке уточняющий поиск, дополнительное
форматирование, сохранять в отформатированном виде в локальных
файлах всю подборку или отдельные части.
4. Технологические аспекты интергации ИПС в WWW
Существует стандартное средство интеграции таких прикладных
программ, как информационно-поисковые, ситемы в среду WWW. Это -
так называемый CGI-интерфейс, передающий вызываемым из WWW
программам (CGI-сценариям) всю необходимую информацию через
стандартизованые переменные окружения (environment variables).
CGI-интерфейс реализован в HTTP-сервере, являющемся ядром
WWW.
При запуске внешней программы (например, при вхождении
пользователя в систему) сервер создает специфические переменные
окружения, содержащие служебную информацию и данные. В частности,
после завершения командой "Старт" процесса формирования запроса,
определяемой следующим HTML-файлом:
ElVisti Search Order Form (c) ElVisti
по ссылке http://www.elvisti.kiev.ua/cgi-bin/search вызовется
соответствующий CGI-сценарий на языке shell, которому передается
переменная окружения QUERY_STRING, определяющая содержание
запроса к сценарию. Она будет иметь следующий формат:
base=<имя базы данных>&pattern1=<термин 1>&oper1=<операция 1>&
pattern2=<термин 2>&oper2=<операция 2>&pattern3=<термин 3>&
action=
В соответствии с CGI-сценарием стандартный вывод программы
elv_html средствами сервера HTTP поступает на вход программы-
броузера HTML на компьютере абонента. Предшествующая
информационному сообщению командная строка
echo Conent-type: text/html
передает информацию о том, что дальнейший текст следует в
гипертекстовой разметке.
Одновременно приходится решать проблемы унификации кодировки
символов, составляющих шаблоны поиска, с кодовой таблицей,
установленной на сервере.
5. Аспекты развития
Благодаря использованию принятого в Web-технологии единого
языка гипертекстовой разметки HTML и, ставших де-факто
стандартными, средств отображения гипертекста, у разработчиков
ИПС появилась возможность сосредоточиться на создании
функциональной поисковой части информационно-поисковой системы,
используя универсальный интерфейс для ввода и вывода информации.
Этот же интерфейс позволяет расширить стандартные документальные
информационно-поисковые системы средствами мультимедиа, проставив
в соответствующих местах HTML-документов ссылки на графические,
муузыкальные или анимационные файлы. Сценарии, базирующиеся на
CGI, обеспечивают практически неограниченную свободу подключения
к WWW приложений типа информационно-поисковых систем, которые при
желании администратора могут быть доступными только пользователям
локальной сети или открыты всем пользователям сети Internet.
Очевидно, уже сейчас необходимо решать вопросы, связанные с
расширением ресурсов компьютеров, являющихся WWW-серверами
широкого доступа. Опыт показывает, что активность использования
WWW-серверов постоянно растет (так, например, к популярному
серверу www.playboy.com происходит до миллиона обращений в
месяц), и тем сложнее будет подерживать высокую скорость
обработки запросов к ИПС.
Тем не менее, ряд ведущих производителей многозадачных ОС
типа UNIX уже имеют готовые средства повышения производительности
программ-серверов без "утяжеления" начинки компьютера. Компьютеры
локальной сети под управлением UNIX могут быть объединены в т. н.
кластер для решения общих вычислительных задач. Кроме того, один
WWW-сервер может быть распределен на нескольких компьютерах и с
помощью новых возможностей современных систем маршрутизации иметь
единый Internet-адрес, что дает возможность обрабатывать запросы
параллельно на разных компьютерах.
Ведущие производители программного обеспечения для
персональных компьютеров уже давно обратили свой взгляд на
WWW-технологию. Так, Microsoft заканчивает отладку второй версии
программы Microsoft Internet Explorer и дополняет Microsoft
Office средствами создания HTML-документов.
Вероятно, развитие WWW-технологии в будущем может привести к
созданию новой компьютерной периферии, например пользовательских
терминалов, ориентированных на работу с гипертекстовыми системами
и multimedia.
Сведения об авторах:
Ландэ Дмитрий Владимирович, кандидат технических наук,
заместитель директора Информационного Центра "Електроннi Вiстi",
E-mail: dwl@elvisti.kiev.ua
Зубок Виталий Юрьевич, инженер,
заведующий отделом Информационного Центра "Електроннi Вiстi",
E-mail: vit@elvisti.kiev.ua