ОБЗОР ПРОГРАММ ДЛЯ ПОИСКА ИНФОРМАЦИИ В
ЛОКАЛЬНЫХ СЕТЯХ ЛОВЦЫ ДАННЫХ Поиск информации во множестве локальных папок и файлов
обычно требует много времени. Современные технологии поиска могут существенно
облегчить эту задачу. Дмитрий ЛАНДЭ Наверное, каждому приходилось сталкиваться с проблемой поиска нужного файла
или папки среди массивов информации, хранимой на диске персонального
компьютера. Безусловно, спустя определенное время желаемый документ все-таки
извлекается на поверхность. Однако, время, потраченное на его поиск,
практически всегда находилось в практической зависимости от объемов данных: чем
больше информации накапливалось на жестком диске, тем дольше и сложнее
отыскивался нужный файл. А теперь вообразите себе, что сегодня происходит с количеством электронной информации в мировом
масштабе, объем которой в 2002 году подсчитали профессоры Калифорнийского
университета в Беркли Питер Лайман и Хол Вэриен. Ученые═ пришли к сногсшибательному выводу:
за период с 1999 по 2002 год объем данных, производимых человечеством,
удвоился. Оказалось, что═ 2002 год═ мир пополнился 5═ экзабайтами (миллион терабайт)═
информации.═ Для сравнения √
объем═ фонда═ библиотеки Конгресса США, включающей в себя═ 19 млн. книг и 56 млн.═ рукописей соответствует 10 ТБ информации.
Исследователи также пришли к выводу, что наибольшее количество информации
находится в сетевой среде. Очевидно, что со временем
отыскать нужные данные, хранимые на серверах и рабочих станциях пользователей,
становится проблематично. А сам процесс все больше напоминает поиск иголки в
стоге сена. Для облегчения столь утомительной процедуры сегодня можно
воспользоваться специальными═ системами
поиска знаний. НАУЧНЫЙ ПОДХОД Так получилось, что в
сетевом окружении═ информация хранится в
различных форматах и стандартах. Ведь в отличие от Интернета, где
информация в основном предоставлена в виде HTML-файлов,
приходится искать так называемые неструктурированные данные (текстовые документы,
электронные таблицы, сообщения электронной почты и прочее). Кстати, по
существующим оценкам, неструктурированные данные (главным образом текст)
составляют не менее 90% информации, с которой имеют дело пользователи локальных
сетей. И лишь оставшаяся доля приходится на структурированные данные, хранимые,
как правило в реляционных СУБД (см.ЧИП 2/2003. С.58) и системах
документооборота. Идея работы таких систем заключается в следующем.
Решения Text Mining преобразуют массивы в данных в специальные хранилища данных (Data Warehouse)═ или корпоративные порталы знаний. Это
позволяет интегрировать информацию для оперативного обобщения и анализа. Часто
созданные═ хранилища являются
самообучаемыми, что позволяет значительно ускорить процесс поиска. Для этого
используются статистические алгоритмы, которые эффективно группируют документы
по различным признакам (например, ═по═ откликам реальных пользователей). В итоге мы получаем уже
структурированную информационную среду, в которой удается провести
интеллектуальный анализ данных и глубинный анализ текстов. Такие данные хорошо
подаются учету, что исключает результаты неудачного поиска. Средства поиска
Как═ правило, системa поиска знаний представляют
собой клиент-серверное решение,
способное работать как в
локальной среде, так и в Интеренте. В алгоритме работы таких систем нередко
заложена возможность автоматизированного анализа и управления информационными
потоками. При этом при изучении данных используются механизмы теории
вероятности (например, бейсовые алгоритмы), научные принципы теории Клода
Шеннона и нейронных сетей. Примером
такой системы может служить Autonomy (www.autonomy.com)
одноименной компании. Концепция вероятностного моделирования позволяет
системе═ Autonomy
находить шаблоны в тексте документа и автоматически их определять в массиве
других документов. Обрабатывая
шаблоны строк в документах, система Autonomy определяет образы и выявляет
закономерности среди больших массивов документов. При этом не берутся в расчет
специальные правила (в том числе и лингвистические), поскольку система не
основывается на определенных ключевых словах, она может работать с любыми══ языками. Несмотря на высокую цену внедрения (несколько сотен
тысяч долларов), у Autonomy насчитывается свыше 400═ клиентов, среди которых British Telecom, France Telecom,
General Motors, Reuters, BBC и др.
Решение PolyAnalyst
российской компании "Мегапьютор" (www.megaputer.ru) также может применяться для
автоматизированного анализа числовых и текстовых баз данных с целью обнаружения
ранее неизвестных, нетривиальных, полезных и доступных пониманию
закономерностей. По своей природе PolyAnalyst является клиент-серверным приложением. При этом
пользователь работает с программой PolyAnalyst Workplace. Математические же
модули выделены в серверную часть - PolyAnalyst Knowledge Server. Такая
архитектура предоставляет естественную возможность для масштабирования системы
от однопользовательского варианта до корпоративного решения с несколькими
серверами. PolyAnalyst работает с разными типами
данных. Это √ числа, логические переменные,═
текстовые строки, даты, а также свободный текст. PolyAnalyst может обрабатывать исходные данные из различных
источников, к примеру, файлы Microsoft Excel 97/2000,═ ODBC- совместимая СУБД, SAS data files, Oracle Express, IBM
Visual Warehouse. ═ Благодаря уникальной технологии эволюционного
программирования и другим интеллектуальным алгоритмам, PolyAnalyst с успехом применяется в различных═ бизнес-задачах, в социологических
исследованиях, в прикладных научных и инженерных задачах, в банковском деле, в
страховании и медицине. Пользователями этой системы являются═ Boeing, 3M, Chase Manhattan Bank, Dupont,
Siemens. Существуют системы поиска знаний, которые выполняют
задачи полнотекстового поиска данных в заданной пользователем коллекции
документов. Например, информационно-поисковая система RetrievaWare (www.convera.com) К документам, с которыми
RetrievalWare способна работать, относятся тексты в различных форматах и
кодировках, электронные таблицы, базы данных, почтовые сообщения и т. п. √
всего более двухсот форматов. Система обладает дополнительным инструментарием,
позволяющим настроиться на поддержку документов специфических форматов. Объем
архива при необходимости может измеряться терабайтами. Архитектура RetrievalWare
поддерживает все распространенные серверные платформы, а клиентским местом
может быть любой компьютер, имеющий графический вэб-браузер. Система обладает
возможностью═ работы в различных
многопроцессорных и распределенных многосерверных конфигурациях. Источником
информации может быть файловая система, системы управления базами данных (MS
SQL, ORACLE, Sybase, прочие СУБД), почтовые системы (Microsoft Exchange, Lotus
Notes и т.п.), системы управления документами (например Documentum EDMS,
FileNET Panagon), узлы корпоративной сети и Интернета, а также электронный
архив Excalibur File Room - средство организации доступа к бумажным документам.
Типы программ
поиска В свое время Александр Линден, директор компании Gather Reserch, выделил четыре основные вида приложений Text
Mining, выполняющих определенные задачи по поиску информации в корпоративных
сетях: -
Первый
вид классифицирует текст, в котором используются статистические корреляции для
построения правил размещения документов в определенные категории. В современных
системах классификация применяется, например,═
в группировке документов в сетях интранет, размещение документов в
папках, избирательная доставка новостей подписчикам. -
Второй
вид ПО выполняет кластеризацию, основывающуюся на признаках документов,
лингвистических и математических методах. Кластеризация широко применяется при работе
с большими документальными массивами данных, определении взаимосвязанных групп
документов, выявлении дубликатов или близких по содержанию документов. -
Третий
тип систем устанавливает семантические связи и проводит их анализ. Используемая
при этом визуализация является ключевым звеном при представлении
неструктурированных текстовых документов. Визуализация используется как
средство представления всего массива документов, а также для осуществления в
нем поиска. -
Системы
четвертого типа получают некоторые факты из текста с целью улучшения
классификации и поиска. Можно назвать еще несколько
задач, например, прогнозирование и═
нахождение исключений, то есть поиск объектов, которые своими
характеристиками═ выделяются из общей
массы. Все эти задачи находят свое воплощение в современных корпоративных
хранилищах. В список компаний и организаций, пользующихся RetrievalWare═ входят═ ABC News,═ Encyclopedia Britannica, Microsoft,═ Sun Microsystems, Всемирный банк, ФАПСИ,
Центральный Банк России, "Лукойл" и другие. Поисковая система Яndex.ServerStandard
3.0 (www.yandex.ru)
также организует═ полнотекстовый поиск
информации в заданном диапозоне. Она предназначена для работы с текстами как в
локальной, так и в Глобальной сете. Система не содержит лицензионных ограничений на число индексируемых
документов, их размер или суммарный размер индекса. Яndex.Server 3.0 состоит из
двух основных логических частей: индексатора и поискового сервера. Индексатор
анализирует документы, среди которых должен проводиться поиск, и сохраняет
информацию о них в специальных═ файлах. Яndex.Server
3.0
поддерживает форматы══ html, xml, rtf, pdf, doc, mp3 и многие
другие. Содержимое индексируемых документов также═ может быть получено при обращении к произвольной базе данных, в
частности, MySQL и MS SQL. Следует отметить технологию
поиска знаний InfoStream (infostream.com.ua),
разработанную ELVisti.═
Технология═ InfoStream позволяет создавать══ полнотекстовые базы данных и осуществлять поиск
информации, формировать тематические информационные каналы, распределять
электронные документы по рубрикам, формировать дайджесты и прочее.═ С помощью InfoStream можно обрабатывать данные в
форматах Microsoft WORD (версии
2000,97, 6), rtf, pdf, и всех
текстовых форматах (простой текст, html, xml). Системы на основе InfoStream═ в настоящее время работают
под управлением══ операционных систем FreeBDS,
Linux, Solaris. Технология позволяет
поддерживать информационные хранилища, в которых применяются
информационно-поисковая среда на основе вэб-решений. InfoStream═ также обеспечивает интерактивный полнотекстовый поиск информации
по сложным запросам, состоящий из ключевых слов, а также поиск логических и
контекстных операторов. При этом производится разнообразное ранжирование
результатов поиска. Объемы информации бывают
настолько огромны, что даже специализированная поисковая система не всегда
способна быстро отыскать требуемый документ. Ряд исследований в США показали,
что сотрудники компаний могут тратить до трех часов в день на поиск нужной
информации.═ Вследствие этого
многие═ крупнейшие фирмы ежегодно теряют
$2,5 млрд. Именно для решения данной проблемы уже существуют
порталы знаний, представляющие среду для эффективного поиска и обмена знаниями.
По-сути,═ порталы являются решениями,
выполняющими одновременно функции хранения,══
классификации, нахождения и обработки знаний. Современные порталы═
управления знаниями обеспечивают решение целого комплекса задач, среди
которых сбор информации об объектах, определение связи объектов, выявление
тенденций. Функциональные возможности таких систем позволяют выполнять
диагностику и прогнозирование развития ситуации. В дополнение к возможностям
глубинного анализа данных и текста, в порталах знаний используется также
человеческий опыт, знания экспертов. В настоящее время хорошо известна система Lotus Discovery Server √ программный продукт, предназначенный для управления знаниями в
корпоративных порталах. Система находит и идентифицирует связи, а также
управляет интеллектуальным капиталом. Благодаря анализу информации, хранящейся
в организации Lotus Discovery Server может определять области
экспертных знаний и подразумеваемые знания сотрудников, находя и организуя
динамические связи между информацией, людьми и их деятельностью. Около пяти лет назад по заказу группы аналитиков
Гарвардского университета российские разработчики из ╚Инфорус╩ создали систему Avalanche, которая═ в процессе поиска формирует модель
предметной области в виде набора ╚умных папок╩, каждая из которых знает, что в
нее должно попасть. Наполнением папок занимается специализированный робот,
который запускается с компьютера ╚хозяина╩ и ╚приносит╩ только то, что просили.
Avalanche √ одно из первых эффективных
решений, использующих современные технологии глубинного анализа текстов. Очень близким к Avalanche по идеологии является подход компании в продукте Vivisimo одноименной компании. В Vivisimo результаты интернет-поиска
распределяются по папкам-категориям, автоматически создаваемым системой.
Достигается это за счет логического сопоставления запросов и результатов
поиска. Естественно, свое применение эта система сразу же
нашла в корпоративных сетях и вэб-сервисах. Рауль Валдес-Перес, один из
учередителей Vivisimo,═ сравнил систему с очень умным библиотекарем, который мгновенно
находит нужную книгу в море неупорядоченной информации. Хорошие
перспективы
Технология на вооружении Решения добычи знаний широко используются
силовиками. Ведь по долгу службы им нередко приходится иметь дело с огромными
массивами данных, которые к тому же находятся в различных форматах и языках.
Так, в 2003 году о технологиях, применяемых═
для поиска информации в текстах, радио- и телепередачах публично заявило
ЦРУ. Оказалось, что объектами поиска спецслужбы═ являются тексты, опубликованные═
в печатных изданиях и в цифровом виде, графические изображения, а также
аудиоинформация на 35 языках. Для выделения аудиоинформации используется
методика Oasis, которая распознает
речь и превращает ее в текст. Методика═
позволяет выделять из аудиопотока только те голоса или ту конкретную
информацию, которая заложена в настройках поиска. Еще одна технология,═ Fluent,
позволила═ ЦРУ искать информацию в
различных═ текстовых документах. Причем
запрос посылается═ на английском языке и
тут же переводится на другие языки. Найденная же информация из базы данных на
разных языках поступает исследователю после автоматического перевода обратно в
английский.═
Вовремя полученная
информация позволяет существенно сэкономить время═ и деньги. Это понимают многие организации, поэтому количество
внедрений таких систем поиска знаний продолжает расти. Например, по
прогнозам аналитической компании IDC, спрос на подобные программы существенно
возрастет в течение ближайших 4-5 лет.═
А к 2005 году в мире ожидается повышение прибылей от продаж поискового
ПО до $1,5 млрд., по сравнению с $540 млн. в 2002 году. Аналитики также
отмечают, что в 2006 году такие системы будут доминировать при проведении
анализа информации от клиентов в компаниях любого уровня, будь то
контакт-центры и службы поддержки,═
интернет-агентства или аналитические агентства. Ведь эффективный поиск информации, вовремя достающий
на поверхность═ необходимые сведения и
избавляющий от информационного "шума", оказывается решающим фактором
в успешной работе предприятия. Поэтому без═
систем добычи знаний любая качественная обработка информации будет
обречена на провал.══ |