Ранжирование сайтов "по Хиршу"
Снарский А.А., д.ф-м.н. 1. Одной из ключевых задач современных информационных технологий по-прежнему является ранжирование документальных информационных массивов (как отдельных документов, так и агрегированных источников информации) [1]. Предполагается, что в результате порядок следования некоторых единиц информации должен соответствовать общим представлениям пользователей об их информационной ценности. 2. В последнее время (в полном соответствии с идеологией гипертекста) широкое распространение получило ранжирование информационных единиц по числу сетевых гиперссылок на них. Эта методика обладает определенными достоинствами, но и существенными недостатками. В частности, получаемые на практике зависимости отличаются выраженной неравномерностью: выборка в основном делится на два класса - с большими значениями рейтинга и с малыми. Кроме того, существуют (и постоянно совершенствуются) способы завышения величины традиционных рейтингов. 3. В 2005 г. в области наукометрии произошло важное событие - физиком Йоргом Хиршем был предложен новый метод оценки научных публикаций, претендующий на более высокую точность и, что особенно важно, объективность по сравнению с получившим широкое распространение индексом цитирования [2], [3]. Метод состоит в подсчете числа h публикаций одного автора, на которые имеется не менее h ссылок. 4. Близость задач оценки публикаций и ранжирования информационных ресурсов, основанная на том, что в обоих случаях цитирование (ссылки) непосредственно отражают их значимость, позволяет применять метод Хирша в сетевых технологиях. 5. Авторами были проведены исследования применения метода Хирша к оценке сайтов в новостном сегменте Интернет. Исследовалось количество внешних ссылок на сайты-источники в течение 1 месяца. Количество источников, на которые указывали контекстные ссылки, составляло 1470. Количество отдельных новостных публикаций, на которых размещались контекстные (не гипертекстовые) ссылки на другие источники, составляло 265 тысяч. 6. Было показано, что рейтинг Хирша характеризует как регулярность ссылок на источники, так и количество этих ссылок. Этот параметр для сайта-источника равен максимальному количеству дней (h), в течение которых было зафиксировано не менее h внешних контекстных ссылок на данный сайт. Выяснилось, что состав самых рейтинговых сайтов в случае рейтинга "по Хиршу" и традиционного подсчета полностью совпадают. При этом ранжирование более равномерное, чем в случае традиционного подхода, что позволяет наглядно ранжировать весь спектр источников. Кроме обычного количества ссылок на сайт, подсчитываемого в традиционных рейтингах, показатель Хирша учитывает стабильность авторитетности источника на протяжении длительного периода. Литература 1. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа - М.: ИД "Вильямс", 2005. - 271 с. 2. Hirsch, J.E. (2005). An index to quantify an individual's scientific research output. Proceedings of the National Academy of Sciences of the USA, 102(46), 16569-16572. 3. Belle Dume. Hottest topic in physics revealed. http://physicsweb.org/articles/news/10/5/4/1 |