УДК 681.58
В.Н.Фурашев, Д.В.Ландэ, С.М.Брайчевский

Системная информатизация избирательных и референдумных процессов: методологические основы статистических исследований электронных информационных ресурсов в период избирательной кампании

Одним из перспективных направлений исследований в области современных информационных технологий, несомненно, является изучение различных статистических характеристик, на основе компьютерного анализа информационных потоков [1]. В первую очередь, это обусловлено тремя причинами:

  • достаточно большие объемы данных, обеспечивающие надежное применение статистических методов;
  • наличие групп источников с низким уровнем корреляции;
  • естественное распределение данных во времени, позволяющее отслеживать динамику событий.

Действительно, обычно ключевой проблемой статистических исследований является недостаточно большие наборы доступных данных, при которых статистические методы не дают необходимой точности, что, в свою очередь, не позволяют зафиксировать реальные тенденции. В этом плане сетевые информационные потоки обладают неисчерпаемыми возможностями.

Разумеется, в первую очередь сказанное относится к статистическим исследованиям общественных процессов, к которым, с полным основанием, относятся процессы, связанные с организацией и проведением выборов и референдумов.

Влияние результатов статистических исследований имеет исключительно большое значение доля организации и проведения выборов и референдумов в силу их определенной специфики. С одной стороны, результаты статистических исследований. В определенной мере, позволяют обеспечивать и поддерживать определенный уровень демократичности и прозрачности этих процессов практически на всех его этапах. С другой стороны, производить постоянную оценку избранной стратегии и тактики построения и проведения избирательной кампании и, при необходимости, оперативно вносить соответствующие коррективы. Это в равной степени относится как к организаторам этих процессов, так и к непосредственным участникам.

Как известно, специфика исследований общественных процессов, в частности, состоит в том, что далеко не всегда ясно, какие именно аспекты представляют интерес. Часто это выясняется после того, как произойдет значительное событие, о котором до его наступления никто не подозревал. Именно тогда становится понятно, что требуется анализировать.

С этой точки зрения процессы организации и проведения выборов и референдумов не только специфичны, но и, по-своему уникальны.

Во-первых, процессы организации и проведения выборов и референдумов очень скоротечны (официальный срок их проведения не превышает 120 календарных дней), но с далеко идущими последствиями. Поэтому получение и анализ результатов объективных статистических исследований имеет первостепенное значение.

Во-вторых, пожалуй, из всех общественных процессов, именно процессы организации и проведения выборов и референдумов носят максимальный субъективистский характер. Но, как известно, объективность N это сумма субъективностей и чем выше эта сумма, тем выше уровень объективности. Поэтому получение результатов статистических исследований по максимально широкому кругу событий, источников информации резко повышает уровень достоверности оценки этих событий и принятия правильных решений.

Именно эти соображения в сочетании с возрастающей политизацией общества, особенно накануне выборов и референдумов, резкое увеличение информационных электронных ресурсов, не подверженных цензуре и "приглаживаниям", возможностями средств вычислительной техники и рядом других аспектов приводят к необходимости самого широкого применения развитых информационных технологий в процессах организации и проведения выборов и референдумов.

Необходимо отметить, что в силу скоротечности процессов организации и проведения выборов и референдумов, зачастую далеко не все участники, да и организаторы этих процессов, успевают адекватно реагировать на те или другие события. Это приводит к судебным, политическим, человеческим "разборкам", причем, зачастую, без достаточной и аргументированной доказательной базы.

Поэтому особый интерес представляет своего рода "обратная задача" восстановления динамических характеристик по ретроспективным базам данных. Обработка больших релевантных выборок документов, упорядоченных по датам за соответствующий промежуток времени также в определенном смысле порождает "вторичный" информационный поток, причем ориентированный на отражение вполне определенных явлений и тенденций. Таким образом, работа с ретроспективными базами данных позволяет моделировать динамику отражения в медиа-пространстве исследуемых общественных процессов.

Дополнительным преимуществом является возможность отбирать наборы источников, дающих наиболее полную и адекватную картину интересующих нас явлений. Дело в том, что заранее не всегда известно, как тот или иной источник будет описывать данные события. Использование же ретроспективных баз данных позволяет вначале изучить имеющиеся в распоряжении источники применительно к поставленной задаче и выяснить, какие из них наиболее информативны.

Отметим также, что анализ сразу всех отобранных данных позволяет "в один проход" выполнить и обработку с использованием агрегатных функций, что существенно ускоряет процесс машинной обработки данных.

Естественно, для реализации подобной программы необходима соответствующая технологическая база, включающая в себя следующие компоненты:

  • ретроспективная база данных, содержащая достаточный объем структурированных общественно важных данных;
  • средства обработки этой базы, позволяющие извлекать из нее релевантные наборы данных;
  • средства статистической обработки построенных релевантных наборов.

В своих исследованиях авторы использовали большие массивы сетевой новостной информации, которые накапливались в течение последнего десятилетия в архивах системы контент-мониторинга InfoStream, которая использовалась также в качестве инструментальной базы исследования [2]. В настоящее время системой InfoStream ежедневно охватывается свыше 30 тысяч новостных сообщений с открытых веб-сайтов сети Интернет. Профессиональное использование возможностей этой системы, доступное ее пользователям, обеспечивает качественно новые возможности информационно-аналитической работы. В частности, авторами проводился сравнительный анализ динамических характеристик освещения актуальных тем в медиа-пространстве Интернет. При этом анализировались следующие аспекты:

  • корреляция между "интенсивностью" освещения данной темы и связанными с ней объективными событиями для каждого источника;
  • выявление выраженных локальных экстремумов;
  • корреляция между локальными максимумами и минимумами соответственно по группам источникам;
  • сдвиг по фазе локальных экстремумов между различными источниками;
  • аналогичные характеристики одновременно по набору сопряженных тем (т. е. тем, формально представляемых по-разному, но имеющим одну и ту же смысловую нагрузку в рамках поставленной задачи).

Простейшая методика заключается в определении для каждой группы источников рейтинга темы N нормализованного уровня цитирования основных смысловых блоков данной темы. Сама тема представляется в виде запроса к информационно-поисковой системе, которая извлекает требуемые материалы из комплекса ретроспективных баз данных [3]. Предполагается, что релевантные выборки сортируются по датам.

При построении релевантных выборок в зависимости от поставленной задачи может также дополнительно учитываться частота (как абсолютная, так и относительная) встречаемости поисковых терминов в каждом документе.

Именно, осуществим сказанное для случая оценки справедливости неоднократно звучавших утверждений о широком применении административного ресурса во время подготовки и проведении выборов Президента Украины в 2004 году на примере статистических исследований электронных информационных источников.

Источников 551: Российских N 214; Украинских N 337

Количество документов по месяцам 2005 года

По всем источникам:

  Октябрь Ноябрь Декабрь
Ющенко 20558 54286 49411
Янукович 20400 47863 43731

По украинским источникам:

  Октябрь Ноябрь Декабрь
Ющенко 18493 41828 38461
Янукович 18061 36775 34586

По российским источникам:

  Октябрь Ноябрь Декабрь
Ющенко 2065 12458 10950
Янукович 2339 11088 9145

Распределение количества публикаций о кандидатах по дням трех месяцев (октябрь, ноябрь и декабрь 2004 г., Рис.1). Для получения этих данных использовались такие запросы к системе InfoStream: "Ющенко&2004.ММ.ДД" и "Янукович&2004.ММ.ДД".


Рис. 1. Динамики совместного упоминания кандидатов:

- сплошная линия N Ющенко;
- пунктирная N Янукович.
Пики соответствуют событиям:
* 1-й тур
* 2-й тур
* решение о переголосовании 2-го тура
* переголосование 2-го тура

Заначительная часть публикаций содержит упоминание сразу о двух кандидатах. Поэтому определенный интерес представляет изучение распределения количества документов, в которых упоминался только один из кандидатов.

Во всем исследуемом массиве электронных СМИ Ющенко без Януковича упоминался 48682 раза (40449 раз в украинских источниках и 8233 N в российских). Янукович без Ющенко упоминался 36420 раз (310088 раз в украинских источниках и 5332 N в российских). Для получения этих данных использовались такие запросы к системе InfoStream: "(Ющенко!Янукович)&2004.ММ.ДД" и "(Янукович!Ющенко)&2004.ММ.ДД".

Предложенный методологический подход особенно актуален в настоящее время в связи с официальным началом процесса подготовки к выборам народных депутатов Украины.


Рис. 2. Динамики раздельного упоминания кандидатов:

- сплошная линия N Ющенко без Януковича;
- пунктирная N Янукович без Ющенко

Итак, очевидно, что с помощью описанного подхода действительно выявляются устойчивые временные зависимости заданных характеристик. На них отчетливо видны как локальные экстремумы, так и фазовые соотношения.

Приведенные данные показывают, что данная методика обеспечивает вполне приемлемое разрешение по времени. Поэтому временная шкала может строиться произвольно (в плане выбора масштаба), что удобно для сопоставления полученных кривых с локализацией общественнозначимых событий, однако из приведенных графиков видно, что даже при распределении по дням общие тенденции вполне выражены (т. е., нет нужды суммировать данные по более длительным временным промежуткам).

Описанная методика может применяться также итерационно: вначале используется мелкий временной масштаб, что позволяет выделить характерные участки на значительных временных отрезках. А затем для каждого из таких отрезков строить подробную картину процесса с требуемой точностью.

Отметим также, что используемая технология позволяет формировать промежуточные наборы числовых данных в форматах, пригодных для загрузки в стандартные пакеты статистической обработки.

Список литературы

1. Фурашев В.М., Ланде Д.В., Григор'╓в О.М., Фурашев О.В. Електронне ╕нформац╕йне сусп╕льство Укра╖ни: погляд у сьогодення ╕ майбутн╓: Монограф╕я. N К.: Преса Укра╖ни, 2005. N 166 с.

2. Григорьев А.Н., Ландэ Д.В. Адаптивный интерфейс уточнения запросов к системе контент-мониторинга InfoStream/ Труды международной конференции "Диалог'2005", с. 109-111

3. Д.В. Ланде, В.М. Фурашев. Iнформацiйне середовище нового суспiльства. ДНI НАУКИ: Зб. тез. доповiдей: В 3 т. / Гуманiтарний унiверситет "ЗIДМУ", 27-28 жовтня 2005; - Запорiжжя: ГУ "ЗIДМУ", 2005. -Т.1. - с. 300-303

РЕФЕРАТ

УДК 681.58

В.Н. Фурашев, Д.В. Ландэ, С.М. Брайчевский Системная информатизация избирательных и референдумных процессов: методологические основы статистических исследований электронных информационных ресурсов в период избирательной кампании //Открытые информационные и компьютерные технологии. Харьков: НАКУ "ХАИ", 2004. N Вып.29 с.11-15

Объектом исследования являются методологические основы статистических исследований электронных информационных ресурсов средствами информатизации как одной из составляющих принятия и корректировки решений во время избирательной кампании.

Библиогр.: 2 назв.

Об'╓ктом досл╕дження ╓ методолог╕чн╕ засади статистичних досл╕джень електронних ╕нформац╕йних ресурс╕в засобами ╕нформатизац╕╖ як одн╕╓╖ з складових прийняття та корегування р╕шень п╕д час виборчо╖ компан╕╖.

Б╕бл╕огр.: 2 назв.