Ловцы данных

ОБЗОР ПРОГРАММ ДЛЯ ПОИСКА ИНФОРМАЦИИ В ЛОКАЛЬНЫХ СЕТЯХ

ЛОВЦЫ ДАННЫХ

Поиск информации во множестве локальных папок и файлов обычно требует много времени. Современные технологии поиска могут существенно облегчить эту задачу.

Дмитрий ЛАНДЭ

Dwl@visti.net

Наверное, каждому приходилось сталкиваться с проблемой поиска нужного файла или папки среди массивов информации, хранимой на диске персонального компьютера. Безусловно, спустя определенное время желаемый документ все-таки извлекается на поверхность. Однако, время, потраченное на его поиск, практически всегда находилось в практической зависимости от объемов данных: чем больше информации накапливалось на жестком диске, тем дольше и сложнее отыскивался нужный файл.

А теперь вообразите себе, что сегодня происходит с количеством электронной информации в мировом масштабе, объем которой в 2002 году подсчитали профессоры Калифорнийского университета в Беркли Питер Лайман и Хол Вэриен. Ученые═ пришли к сногсшибательному выводу: за период с 1999 по 2002 год объем данных, производимых человечеством, удвоился. Оказалось, что═ 2002 год═ мир пополнился 5═ экзабайтами (миллион терабайт)═ информации.═ Для сравнения √ объем═ фонда═ библиотеки Конгресса США, включающей в себя═ 19 млн. книг и 56 млн.═ рукописей соответствует 10 ТБ информации. Исследователи также пришли к выводу, что наибольшее количество информации находится в сетевой среде.

Очевидно, что со временем отыскать нужные данные, хранимые на серверах и рабочих станциях пользователей, становится проблематично. А сам процесс все больше напоминает поиск иголки в стоге сена. Для облегчения столь утомительной процедуры сегодня можно воспользоваться специальными═ системами поиска знаний.

НАУЧНЫЙ ПОДХОД

Так получилось, что в сетевом окружении═ информация хранится в различных форматах и стандартах. Ведь в отличие от Интернета, где информация в основном предоставлена в виде HTML-файлов, приходится искать так называемые неструктурированные данные (текстовые документы, электронные таблицы, сообщения электронной почты и прочее). Кстати, по существующим оценкам, неструктурированные данные (главным образом текст) составляют не менее 90% информации, с которой имеют дело пользователи локальных сетей. И лишь оставшаяся доля приходится на структурированные данные, хранимые, как правило в реляционных СУБД (см.ЧИП 2/2003. С.58) и системах документооборота.

Для обеспечения комфортности работы с неструктурированными массивами, обычно пытаются═ документы классифицировать и распределить по тематическим папкам или каталогам. Эта процедура трудоемкая и, что самое главное, не исключает возможности внесения дополнительных ошибок. Понятно, что создать информационную среду, объединяющую разнородные информационные объекты непросто. Кроме того, попытки анализа больших объемов данных очень часто усложняют процесс принятия решения о необходимости выбора той или иной информации. Чтобы═ избежать вышеназванной проблемы с поиском неструктурированной информации, и были разработаны системы добычи знаний, получившие название Text Mining или Knowledge Mining.

Идея работы таких систем заключается в следующем. Решения Text Mining преобразуют массивы в данных в специальные хранилища данных (Data Warehouse)═ или корпоративные порталы знаний. Это позволяет интегрировать информацию для оперативного обобщения и анализа. Часто созданные═ хранилища являются самообучаемыми, что позволяет значительно ускорить процесс поиска. Для этого используются статистические алгоритмы, которые эффективно группируют документы по различным признакам (например, ═по═ откликам реальных пользователей).

В итоге мы получаем уже структурированную информационную среду, в которой удается провести интеллектуальный анализ данных и глубинный анализ текстов. Такие данные хорошо подаются учету, что исключает результаты неудачного поиска.

Средства поиска

Как═ правило, системa поиска знаний представляют собой клиент-серверное решение, способное работать как в локальной среде, так и в Интеренте. В алгоритме работы таких систем нередко заложена возможность автоматизированного анализа и управления информационными потоками. При этом при изучении данных используются механизмы теории вероятности (например, бейсовые алгоритмы), научные принципы теории Клода Шеннона и нейронных сетей.

Примером такой системы может служить Autonomy (www.autonomy.com) одноименной компании. Концепция вероятностного моделирования позволяет системе═ Autonomy находить шаблоны в тексте документа и автоматически их определять в массиве других документов. Обрабатывая шаблоны строк в документах, система Autonomy определяет образы и выявляет закономерности среди больших массивов документов. При этом не берутся в расчет специальные правила (в том числе и лингвистические), поскольку система не основывается на определенных ключевых словах, она может работать с любыми══ языками.

Несмотря на высокую цену внедрения (несколько сотен тысяч долларов), у Autonomy насчитывается свыше 400═ клиентов, среди которых British Telecom, France Telecom, General Motors, Reuters, BBC и др.

Решение PolyAnalyst российской компании "Мегапьютор" (www.megaputer.ru) также может применяться для автоматизированного анализа числовых и текстовых баз данных с целью обнаружения ранее неизвестных, нетривиальных, полезных и доступных пониманию закономерностей.

По своей природе PolyAnalyst является клиент-серверным приложением. При этом пользователь работает с программой PolyAnalyst Workplace. Математические же модули выделены в серверную часть - PolyAnalyst Knowledge Server. Такая архитектура предоставляет естественную возможность для масштабирования системы от однопользовательского варианта до корпоративного решения с несколькими серверами.

PolyAnalyst работает с разными типами данных. Это √ числа, логические переменные,═ текстовые строки, даты, а также свободный текст. PolyAnalyst может обрабатывать исходные данные из различных источников, к примеру, файлы Microsoft Excel 97/2000,═ ODBC- совместимая СУБД, SAS data files, Oracle Express, IBM Visual Warehouse.

═

Благодаря уникальной технологии эволюционного программирования и другим интеллектуальным алгоритмам, PolyAnalyst с успехом применяется в различных═ бизнес-задачах, в социологических исследованиях, в прикладных научных и инженерных задачах, в банковском деле, в страховании и медицине.

Пользователями этой системы являются═ Boeing, 3M, Chase Manhattan Bank, Dupont, Siemens.

Существуют системы поиска знаний, которые выполняют задачи полнотекстового поиска данных в заданной пользователем коллекции документов.

Например, информационно-поисковая система RetrievaWare (www.convera.com) К документам, с которыми RetrievalWare способна работать, относятся тексты в различных форматах и кодировках, электронные таблицы, базы данных, почтовые сообщения и т. п. √ всего более двухсот форматов. Система обладает дополнительным инструментарием, позволяющим настроиться на поддержку документов специфических форматов. Объем архива при необходимости может измеряться терабайтами.

Архитектура RetrievalWare поддерживает все распространенные серверные платформы, а клиентским местом может быть любой компьютер, имеющий графический вэб-браузер. Система обладает возможностью═ работы в различных многопроцессорных и распределенных многосерверных конфигурациях. Источником информации может быть файловая система, системы управления базами данных (MS SQL, ORACLE, Sybase, прочие СУБД), почтовые системы (Microsoft Exchange, Lotus Notes и т.п.), системы управления документами (например Documentum EDMS, FileNET Panagon), узлы корпоративной сети и Интернета, а также электронный архив Excalibur File Room - средство организации доступа к бумажным документам.

Типы программ поиска

В свое время Александр Линден, директор компании Gather Reserch, выделил четыре основные вида приложений Text Mining, выполняющих определенные задачи по поиску информации в корпоративных сетях:

- Первый вид классифицирует текст, в котором используются статистические корреляции для построения правил размещения документов в определенные категории. В современных системах классификация применяется, например,═ в группировке документов в сетях интранет, размещение документов в папках, избирательная доставка новостей подписчикам.

- Второй вид ПО выполняет кластеризацию, основывающуюся на признаках документов, лингвистических и математических методах. Кластеризация широко применяется при работе с большими документальными массивами данных, определении взаимосвязанных групп документов, выявлении дубликатов или близких по содержанию документов.

- Третий тип систем устанавливает семантические связи и проводит их анализ. Используемая при этом визуализация является ключевым звеном при представлении неструктурированных текстовых документов. Визуализация используется как средство представления всего массива документов, а также для осуществления в нем поиска.

- Системы четвертого типа получают некоторые факты из текста с целью улучшения классификации и поиска.

Можно назвать еще несколько задач, например, прогнозирование и═ нахождение исключений, то есть поиск объектов, которые своими характеристиками═ выделяются из общей массы. Все эти задачи находят свое воплощение в современных корпоративных хранилищах.

В список компаний и организаций, пользующихся RetrievalWare═ входят═ ABC News,═ Encyclopedia Britannica, Microsoft,═ Sun Microsystems, Всемирный банк, ФАПСИ, Центральный Банк России, "Лукойл" и другие.

Поисковая система Яndex.ServerStandard 3.0 (www.yandex.ru) также организует═ полнотекстовый поиск информации в заданном диапозоне. Она предназначена для работы с текстами как в локальной, так и в Глобальной сете. Система не содержит лицензионных ограничений на число индексируемых документов, их размер или суммарный размер индекса. Яndex.Server 3.0 состоит из двух основных логических частей: индексатора и поискового сервера. Индексатор анализирует документы, среди которых должен проводиться поиск, и сохраняет информацию о них в специальных═ файлах.

Яndex.Server 3.0 поддерживает форматы══ html, xml, rtf, pdf, doc, mp3 и многие другие. Содержимое индексируемых документов также═ может быть получено при обращении к произвольной базе данных, в частности, MySQL и MS SQL.

Следует отметить технологию поиска знаний InfoStream (infostream.com.ua), разработанную ELVisti.═ Технология═ InfoStream позволяет создавать══ полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, распределять электронные документы по рубрикам, формировать дайджесты и прочее.═ С помощью InfoStream можно обрабатывать данные в форматах Microsoft WORD (версии 2000,97, 6), rtf, pdf, и всех текстовых форматах (простой текст, html, xml). Системы на основе InfoStream═ в настоящее время работают под управлением══ операционных систем FreeBDS, Linux, Solaris.

Технология позволяет поддерживать информационные хранилища, в которых применяются информационно-поисковая среда на основе вэб-решений.

InfoStream═ также обеспечивает интерактивный полнотекстовый поиск информации по сложным запросам, состоящий из ключевых слов, а также поиск логических и контекстных операторов. При этом производится разнообразное ранжирование результатов поиска.

Порталы знаний

Объемы информации бывают настолько огромны, что даже специализированная поисковая система не всегда способна быстро отыскать требуемый документ. Ряд исследований в США показали, что сотрудники компаний могут тратить до трех часов в день на поиск нужной информации.═ Вследствие этого многие═ крупнейшие фирмы ежегодно теряют $2,5 млрд.

Именно для решения данной проблемы уже существуют порталы знаний, представляющие среду для эффективного поиска и обмена знаниями. По-сути,═ порталы являются решениями, выполняющими одновременно функции хранения,══ классификации, нахождения и обработки знаний.

Современные порталы═ управления знаниями обеспечивают решение целого комплекса задач, среди которых сбор информации об объектах, определение связи объектов, выявление тенденций. Функциональные возможности таких систем позволяют выполнять диагностику и прогнозирование развития ситуации. В дополнение к возможностям глубинного анализа данных и текста, в порталах знаний используется также человеческий опыт, знания экспертов.

В настоящее время хорошо известна система Lotus Discovery Server √ программный продукт, предназначенный для управления знаниями в корпоративных порталах. Система находит и идентифицирует связи, а также управляет интеллектуальным капиталом. Благодаря анализу информации, хранящейся в организации Lotus Discovery Server может определять области экспертных знаний и подразумеваемые знания сотрудников, находя и организуя динамические связи между информацией, людьми и их деятельностью.

Около пяти лет назад по заказу группы аналитиков Гарвардского университета российские разработчики из ╚Инфорус╩ создали систему Avalanche, которая═ в процессе поиска формирует модель предметной области в виде набора ╚умных папок╩, каждая из которых знает, что в нее должно попасть. Наполнением папок занимается специализированный робот, который запускается с компьютера ╚хозяина╩ и ╚приносит╩ только то, что просили. Avalanche √ одно из первых эффективных решений, использующих современные технологии глубинного анализа текстов.

Очень близким к Avalanche по идеологии является подход компании в продукте Vivisimo одноименной компании. В Vivisimo результаты интернет-поиска распределяются по папкам-категориям, автоматически создаваемым системой. Достигается это за счет логического сопоставления запросов и результатов поиска.

Естественно, свое применение эта система сразу же нашла в корпоративных сетях и вэб-сервисах. Рауль Валдес-Перес, один из учередителей Vivisimo,═ сравнил систему с очень умным библиотекарем, который мгновенно находит нужную книгу в море неупорядоченной информации.

Хорошие перспективы

Технология на вооружении

Решения добычи знаний широко используются силовиками. Ведь по долгу службы им нередко приходится иметь дело с огромными массивами данных, которые к тому же находятся в различных форматах и языках. Так, в 2003 году о технологиях, применяемых═ для поиска информации в текстах, радио- и телепередачах публично заявило ЦРУ. Оказалось, что объектами поиска спецслужбы═ являются тексты, опубликованные═ в печатных изданиях и в цифровом виде, графические изображения, а также аудиоинформация на 35 языках. Для выделения аудиоинформации используется методика Oasis, которая распознает речь и превращает ее в текст. Методика═ позволяет выделять из аудиопотока только те голоса или ту конкретную информацию, которая заложена в настройках поиска. Еще одна технология,═ Fluent, позволила═ ЦРУ искать информацию в различных═ текстовых документах. Причем запрос посылается═ на английском языке и тут же переводится на другие языки. Найденная же информация из базы данных на разных языках поступает исследователю после автоматического перевода обратно в английский.═

Вовремя полученная информация позволяет существенно сэкономить время═ и деньги. Это понимают многие организации, поэтому количество внедрений таких систем поиска знаний продолжает расти. Например, по прогнозам аналитической компании IDC, спрос на подобные программы существенно возрастет в течение ближайших 4-5 лет.═ А к 2005 году в мире ожидается повышение прибылей от продаж поискового ПО до $1,5 млрд., по сравнению с $540 млн. в 2002 году. Аналитики также отмечают, что в 2006 году такие системы будут доминировать при проведении анализа информации от клиентов в компаниях любого уровня, будь то контакт-центры и службы поддержки,═ интернет-агентства или аналитические агентства.

Ведь эффективный поиск информации, вовремя достающий на поверхность═ необходимые сведения и избавляющий от информационного "шума", оказывается решающим фактором в успешной работе предприятия. Поэтому без═ систем добычи знаний любая качественная обработка информации будет обречена на провал.══