Контент-мониторинг New Media

Ландэ Дмитрий Владимирович, к.т.н.,
заместитель директора
Информационного центра "ЭЛВИСТИ"

Необходимость интеграции новостей New Media, с которой в последнее время ассоциируется сеть Internet, привела к появлению нового типа информационных служб - сетевых интеграторов новостей.

В настоящее время количество новостных сообщений, публикуемых в сети Internet во всем мире, превышает 1 000 000 в сутки. Крупнейшие сетевые интеграторы новостей обрабатывают ежесуточно десятки тысяч сообщений. Например, информационный поток на украинском и русском языках, формируемый Информационным центром "ЭЛВИСТИ" на основе сканированая Web-сайтов сети Internet, превышает 20000 сообщений в сутки.

Ситуация резкого роста темпов производства информации породила ряд проблем:

  1. непропорциональный рост информационного шума ввиду слабой структурированности информации;
  2. появление паразитной (невостребованной, получаемой в качестве "приложений") информации;
  3. несоответствие формально релевантной информации действительным потребностям;
  4. многократное дублирование информации.

Вследствие этого традиционные информационно-поисковые системы постепенно стали утрачивать свою актуальность. Охват, обобщение больших динамических информационных массивов, непрерывно генерируемых в New Media, требует качественно новых подходов. Возникла необходимость создания методов мониторинга информационных ресурсов, тесно связанных с достаточно популярным сейчас контент-анализом. Именно это перспективное направление развития систем сетевой интеграции новостей рассматривается как контент- мониторинг. Появление этого метода вызвано прежде всего задачей систематического отслеживания тенденций и процессов в постоянно обновляемой информационной среде, какой является New Media. Контент-мониторинг - это содержательный анализ информационных потоков с целью получения необходимых качественных и количественных срезов, который, в отличие от контент- анализа, производится постоянно на протяжении не определенного заранее времени.

К технологическим предпосылкам появления систем контент-мониторинга относятся:

  1. развитие сети Internet, ее технологий и информационных ресурсов;
  2. развитие и совершенствование технологий информационного поиска в Internet-среде;
  3. появление и развитие алгоритмов и систем, построенных на основе методов математической лингвистики.

К теоретическим и методологическим предпосылкам относятся:

  1. развитие теоретических основ контент-анализа, теории "раскопок текста" (Data Mining);
  2. методы математической лингвистики;
  3. теория кластерного анализа.

Существуют два класса отчетов, получаемых в системах контент-мониторинга - текстовый и статистический, которым соответствуют две взаимосвязанные программно-технологические компоненты. Текстовые компоненты контент- мониторинга основываются на методах автоматического реферирования текстов и их практическим выходом чаще всего являются тематические дайджесты, представляющие собой соответственно оформленные сгруппированные совокупности наиболее весомых (или всех) информационных материалов или их частей. Статистические компоненты контент-мониторинга позволяют формировать таблицы и гистограммы изменения весомости отдельных понятий (феноменов) во времени, в различных тематических и видовых разрезах, а также эффективно выявлять взаимосвязи и взаимное влияние отдельных феноменов.

Методы контент-мониторинга, как развитие идеологии контент-анализа, оформившейся в начале 50-х годов в США (Berelson, B. (1952). "Content analysis in communication research", George, A. L. (1959). Quantitative and qualitative approaches to content analysis), получили большое развитие на территории бывшего СССР. Так, наиболее интересными сегодня являются проекты М. Г. Крейнеса "Ключи от текста", Д. А. Поспелова "Интерактивное выявление семантических структур текста", проект "Оружие аналитика" компании "Инвента", проект СМИСК ГНТЦ "ГИНТЕХ" и др.

В настоящее время Информационным центром "ЭЛВИСТИ" ведутся разработки системы контент-мониторинга на основе существующей технологии Stream, обеспечивающей сбор и обработку информации из сети Internet. Первая очередь системы контент-мониторинга решает задачи формирования тематических информационных каналов, дайджестов, таблиц взаимосвязей понятий, гистограмм распределения весовых значений отдельных феноменов.

Обобщенный алгоритм автоматического формирования дайджестов, к примеру, включает следующие шаги:

  1. сбор информации из сети Internet и соответствующее ее конвертирование;
  2. формирование тематических информационных каналов на основе типовых запросов средствами системы избирательного распределения информации;
  3. обработка тематических информационных каналов: построение частотных словарей, удаление дублирующихся сообщений, определение "веса" каждой единицы информации;
  4. выделение наиболее весомых сообщений и окончательное формирование дайджеста.

Методы контент-мониторинга являются одним из путей улучшения качества систем управления контентом, являясь сегодня уникальным механизмом решения существующей проблемы экстенсивного развития сетевой интеграции новостей, заключающейся в постоянном увеличении количества источников и объемов информации.

HOME