ЗАПРОСЫ ПОЛЬЗОВАТЕЛЕЙ К ПОИСКОВЫМ
СЕРВЕРАМ В ИНТЕРНЕТ. НЕКОТОРЫЕ ВЫВОДЫ

Ландэ Дмитрий, к.т.н.,
заместитель директора
Информационного центра "ЭЛВИСТИ"


[an error occurred while processing this directive][an error occurred while processing this directive] File not found. [an error occurred while processing this directive]

Анализ запросов пользователей к поисковым серверам, размещенным в сети Internet, работа весьма интересная и даже полезная. Чего только не увидишь, какие только мысли не прийдут в голову... Например, Мария Долголенко ("Известия Компьютер" N66, 14 апреля 1999), так озаглавила свою статью по этому поводу: "Самые частые гости в сети - маньяки, лентяи и безработные". Действительно, проанализировав первую десятку популярных слов из запросов к серверу Яndex (http://www.yandex.ru/), она пришла к выводу, что ленивые студенты и школьники уже не пишут рефераты и дипломы, а ищут их в сети и т.п. Кроме этих примитивных результатов, ей был описан весьма серьезный и действенный механизм оценки изменения склонностей и интересов публики, так называемый НИНИ-индекс (Непостоянство Интересов Населения Итернета). При "раскрутке" своего сайта в Internet или при создании нового сетевого продукта безусловно очень полезно проанализировать список слов, встречаемых в запросах к информационно-поисковым системам.

Как правило, любая информационно-поисковая система в сети Internet в состоянии запомнить и сохранить в своих системных журналах (log-файлах) все запросы, которые поступали на ее вход. Могут сохраняться не только запросы, но и адреса отдельных компьютеров пользователей или прокси-серверов, время поступления запросов на обработку и результаты поиска. Т.е. на популярном поисковом сервере может накапливаться достаточно большой объем информации, отражающей лексику, запросы, интересы, потребности пользователей сети. Кто же владеет этой информацией? Конечно же владелец поисковой машины. Является ли просмотр этой информации прелюстрацией? В запросной части - скорее всего нет. Что же касается остального, то, например, Яndex так декларирует свою политику: "Яndex никому, никогда, ни за что и ни по какому поводу не предоставляет никакой персональной информации о своих пользователях. В частности, на этой странице все данные обезличены. Если Вы хотите, чтобы Ваш запрос не отображался на странице "прямой эфир", делайте его с этой страницы (http://www.yandex.ru/sindex.html)". Опасения по этому поводу со стороны борцов за конфиденциальность сетевой информации нашла свое выражение в баннере, размещенном по адресу: http://www.libertarium.ru/pictures/l_sormbaners_index/l_sormbaners_index.sorm10.gif и приведенном на рис. 1.

Рис. 1. Баннер защитников конфиденциальности в сети

Тем не менее, списки (рейтинги) наиболее часто встречаемых слов из запросов достаточно часто публикуются в Internet. Практически каждый второй информационно-поисковый сервер в русскоязычном Internet публикует такие списки. Как уже было сказано, просмотр и анализ слов из запросов может принести немало пользы. Как же найти эту информацию в сети? Есть один, рутинный способ - просматривая подряд все известные поисковые серверы. Например, на сервере Rambler (http://www.rambler.ru) приведен рейтинг слов из запросов, датированный правда началом 1998 года. После этого публикации рейтингов остановились. Есть и более эффективный способ нахождения, заключающийся в использовании для нахождения таких списков информационно- поисковых систем. Достаточно зайти, например, на известный сервер Rambler и ввести запрос типа

работа & реферат & бесплатный & free & mp3

В результате получим множество ссылок, включающее необходимые списки. Если результат поиска оказался слишком объемным, то запрос можно уточнить еще несколькими "популярными" словами, например, из списка Ramblera. В таблице 1 содержится небольшая подборка ресурсов, на которых приведены запросы или слова из запросов поисковых систем.

                                                      Таблица 1

----------------------------------------------------------------
Сервер         URL                  Обновленя  Примечание 
----------------------------------------------------------------
Rambler        www.rambler.ru/      -          100 слов с
               new/words.shtml                 наивысшим рейтингом    
Яndex          www.yandex.ru/       постоянно  Последние 20 
               last20.html                     запросов
@Rus           www.atrus.ru/rus/    ежедневно  20-25 слов с
               topwords.asp                    наивысшим рейтингом
Апорт!         www.agama.ru/WINP/   ежедневно  100 слов с
               aport/wrd100.htm                наивысшим рейтингом
Rambler.nnov   www.rambler.nnov.ru/ ежедневно  100 слов с
               top_words.html                  наивысшим рейтингом
InfoReS        infores.visti.net/   постоянно  Последние 60
               stat/                           запросов
МЕТА           meta.kharkiv.net/    ежемесячно 20 слов. Имеется 
               WINP/rs/                        доступный архив
________________________________________________________________

Вместе с интересующими нас ссылками результаты поиска будут включать адреса неудачно заиндексированных сайтов. Общепринятый механизм "раскрутки" сайта с помощью информационно-поисковых серверов состоит в следующем: в МЕТА - тэг "keywords" (ключевые слова) вносятся слова наиболее точно отражающие его содержание. В результате обхода такого сайта автоматическими программами сканирования (спайдерами) выбраные слова служат основой индексирования баз данных информационно-поисковых серверов, после чего ресурс будет доступен для пользователей того или иного сервера. Так вот, если в качестве "keywords" внести одну-две сотни слов из рейтинга популярности слов из запросов, то возникнет иллюзия, что сервер сразу станет популярным. Такой подход называется СПАМОМ поисковых систем. Автор таких сайтов рискует своей репутацией и в конечном итоге - количеством постоянных посетителей. В качестве примера такого некорректного использования ключевых слов можно привести сайты студии Web-дизайна AWG (http://www.webber.net.ua/awg/) и поискового каталога "ПОШУК" (http://poshuk.dnepr.net/).

Приведем фрагмент исходного текста второго сайта:


<HTML>
<HEAD>>
<TITLE>Poshuk</TITLE>
<meta name="description" content="Welcome to Poshuk. Searching Of All And
Everywhere">
<meta name="keywords" content="РЕФЕРАТ МОСКВА СЕКС ИГРА РАБОТА ПОРНО SEX
ЖУРНАЛ РУССКИЙ MP3 ПРОГРАММА РОССИЯ ЭРОТИКА ЗНАКОМСТВО БЕСПЛАТНЫЙ PORNO
СИСТЕМА КАРТА АВТОМОБИЛЬ ИНТЕРНЕТ БАНК FREE CHAT ЦЕНА МОСКОВСКИЙ ПРАВО ФОТО
СЕРВЕР ПРАВЫЙ ИСТОРИЯ ПЕТЕРБУРГ ПОГОДА ПРОДАЖА КУРС РАДИО DOWNLOAD WINDOW
ЗАКОН CRACK БИБЛИОТЕКА GAME КОМПЬЮТЕР РУССКАЯ ЧАТ АНЕКДОТ МУЗЫКА
ОБОРУДОВАНИЕ COM INTERNET РАСПИСАНИЕ ЭКОНОМИКА RUSSIAN РОССИЙСКИЙ МИР
ФОТОГРАФИЯ ТЕЛЕФОН САНКТ ФИРМА ПРЕДПРИЯТИЕ КУРСОВОЙ ГОРОСКОП ПСИХОЛОГИЯ
СПРАВОЧНИК СЕТЬ БАЗА БИЗНЕС ДАТЬ MAIL КНИГА ОПИСАНИЕ ЯЗЫК ИНСТИТУТ
ЛИТЕРАТУРА НОВОСТЬ РЫНОК ТЕЛЕФОННЫЙ ПРОИЗВОДСТВО ГРУППА ПОИСК МЕЖДУНАРОДНЫЙ
ФИЛОСОФИЯ РЕБЕНОК ТУРИЗМ MUSIC ОБРАЗОВАНИЕ УПРАВЛЕНИЕ МАРКЕТИНГ ДЕТСКИЙ
РЕКЛАМА ЭКОНОМИЧЕСКИЙ ДАННЫЕ СВЯЗЬ АНАЛИЗ КЛУБ ЭРОТИЧЕСКИЙ ХАКЕР
ГОСУДАРСТВЕННЫЙ МОДЕМ WEB ...

Неправда ли, достаточно неточные слова для украинского каталога сетевых ресурсов? Очевидно, здесь использовался один из рейтингов слов запросов к российскому информационно-поисковому сайту.

Отдельной интересной темой является анализ изменения запросов пользователей сети, но не краткосрочный, а долгосрочный. В отличие от НИНИ-индекса, впечатляюще отражающего краткосрочные изменения потребностей пользователей, долгосрочный анализ позволяет выявить понимание пользователями роли Internet, тенденций его развития и предметной области конкретного информационно-поискового сервера.

В следующей таблице приведены первые десять наиболее популярных слов из запросов к информационно-поисковому серверу InfoReS, полученные в январе 1998 года и сентябре 1999 г.

                                               Таблица 2

Наиболее популярные слова запросов
к информационно-поисковому серверу InfoReS
_______________________________________________
N                      Период
    -------------------------------------------
    Январь 1998 г.            Сентябрь 1999 г. 
_______________________________________________
1.  УКРАИНА                   УКРАИНА
2.  СЕКС                      РЕФЕРАТ
3.  РЕФЕРАТ                   КИЕВ
4.  РАБОТА                    РАБОТА
5.  КИЕВ                      ЗНАКОМСТВА
6.  СИСТЕМА                   ЗАКОН
7.  mp3                       БАНК
8.  БАНК                      КУРС
9.  КУРС                      СЕКС
10. ГАЗЕТА                    ГАЗЕТА
--------------------------------------------------------

Анализ даже первого десятка слов показывает, что аудитория пользователей, обращающихся к серверу поиска в украинских ресурсах Internet, приходит к деловому использованию сети, применительно к определенному охвату ресурсов. Это говорит о тенденциях развития всей ураинской части сети. В этом плане показательно, что слово "СЕКС" перешло со второго места на девятое, а "mp3" (популярный музыкальный формат) вообще покинуло десятку. Вместе с тем, в десятке появились слова "ЗАКОН" и "ЗНАКОМСТВА". Действительно, за последний год в украинском Internet получили развитие два крупнейших проекта по предоставлению нормативно-законодательной информации в свободном доступе (http://www.rada.gov.ua/ и http://www.liga.gov.ua/), а также появляются первые сайты, посвященные знакомствам. Вместе с тем, падение рейтинга некоторых слов на конкретном сервере не может говорить о падении интереса у пользователей к определенным тематикам в рамках всей сети. Скорее всего, пользователи в большинстве случаев стали лучше ориентироваться в сетевых ресурсах и знают, что и где лучше искать.

При внимательном изучении слов из запросов обращает внимание большое количество слов общего характера, предлогов, местоимений и т.п. Эти слова в запросах никогда не повышают эффективности поиска и практически не используются при построении индексов в полнотекстовых базах данных, на основе которых построены информационно-поисковые серверы. В справочной информации практически ко всем подобным системам (в HELP-файлах) упоминается об этой особенности составления запросов. Списки слов, которые не используются при индексировании баз данных, принято называть стоп-словарями. Профессионально составленные стоп-словари являются результатами серьезных лингвистических исследований. При этом они широко представлены Internet для английского, французского и даже русского языков. Неплохие стоп-словари для английского и русского языков приведены, например, на сайте Федерального института промышленной собственности (http://www.fips.ru/supportru/stop.htm) Стоп-словарей для украинского языка в Internet до настоящего времени авторами не было найдено.

Анализ запросов и входящих в них слов приводит к некоторым выводам, которые могут быть полезными как для выработки стратегии поиска в Internet, так и для оценки тенденций развития сети:

1. При оценке рейтинга наиболее популярных слов запросов не так важно содержание списка наиболее популярных слов, как изменения этого списка изо дня в день. Подход, принятый в НИНИ-индексе системы Яndex, достаточно четко отражает потребности пользователей и может являться неплохим инструментом маркетинговых и аналитических исследований.

2. Лишь небольшая часть запросов к информационно-поисковым серверам содержат более 2 слов и при этом корректно использует принятый на них язык запросов. Отсюда следует необходимость использования на информационно-поисковых серверах естественно-языкового интерфейса. Создается впечатление, что HELP-файлы к поисковым системам в Internet читают единицы из сотен тысяч.

3. Процент "интеллектуальных" запросов все-же растет и состав рейтинговых слов непрерывно меняется, адаптируясь к направленности и охвату конкретной поисковой системы.

4. Информация из рейтингов слов запросов может эффективно использоваться при индексировании и "раскрутке" сайтов в случае избирательного подхода и привести к обратному эффекту при попытке спама поисковых систем.

5. Крупнейшие информационно-поисковые серверы по ряду причин постепенно отказываются от публикации такого рода информации.