Модель новостного Web

Ландэ Д.В., к.т.н., Григорьев А.Н., Брайчевский С.М., к.ф.-м.н., Дармохвал А.Т.
Информационный центр "ЭЛВИСТИ"

1. Эффективный анализ новостных информационных потоков в Интернет, построение систем синдикации новостей невозможны без некоторых сведений о структуре новостного Web-пространства [1], [2], формируемого потоками сообщений, публикуемых на Web-сайтах. Информация о структуре новостного Web, во-первых, даст возможность выявления первоисточников информации [3], и во-вторых, позволит сократить затраты путем исключения из поиска и анализа непригодных источников. Кроме того, модель может способствовать нахождению действительно полезных первоисточников и служб интеграции информации.

2. Для традиционного Web признана модель "галстука-бабочки", представленная в работах А. Бредера [4], однако публикаций об архитектуре новостного Web-пространства авторам не известны. Вместе с тем, существует ряд причин, ставящих под сомнение применимость модели Бредера к новостной составляющей Web.

3. В качестве экспериментальной базы для построения модели авторами использовался мощный информационный корпус - ретроспективная база данных системы контент-мониторинга InfoStream [5]. Система InfoStream применяется для решения задач автоматизированного сбора новостной информации и обеспечения доступа к ней в поисковых режимах.

4. Важную проблему составляет дублирование информации, характерное в первую очередь именно для новостного сегмента Интернет. Учет эффектов тиражирования сообщений представляет собой одну из составляющих модели.

5. Основа модели была построена путем анализа полной картины распределения входных и выходных ссылок (не гипертекстовых, а контекстных). При этом строилась матрица инциденций и соответствующие графы связи, а также выявлялись необходимые кластеры [6]. В результате проведенных исследований была принята модель новостного Web-пространства, которая включает такие зоны: входной полуостров (16,7%); выходной полуостров (27,5%); остров (19,3%); ядро (36,5%).

6. В результате исследований построена предложены подходы к выявлению основных зон модели новостного Web-пространства и рассчитаны числовые соотношения различных зон этой модели.

Список использованной литературы

1. Брайчевский С.М., Ландэ Д.В. Современные информационные потоки: актуальная проблематика // НТИ. Сер. 1. √М., 2005. - ╧11, - С. 21-33.

2. Gianna M. Del Corso,  Antonio Gulli  Univerisity, Francesco Romani. Ranking a stream of news. Proceedings of the 14th international conference on World Wide Web. Chiba, Japan. √ 2005. - P. 97 - 106. 

3. Ландэ Д.В., Фурашев В.Н. Вопросы построения и использования многокритериальной модели выбора источников информации. // Открытые информационные и компьютерные интегрированные технологии: Сб. науч. трудов. Вып. 30. √Х.: аэрокосмический ун-т "ХАИ", 2006. - С. 76-85.

4. Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse. Syntactic Clustering of the Web. WWW6, 1997.

5. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа - М.: ИД "Вильямс", 2005. - 271 с.

6. Ландэ Д.В. Некоторые методы анализа новостных информационных потоков // Научные труды Донецкого национального технического университета. Серия: Информатика, кибернетика и вычислительная техника (ИКВТ-2005). - Вып. 93. √ Донецк: ДонНТУ, 2005. - С. 277-287.


P e к л а м a: