Березин Б., Ландэ Д., Павленко О. Разработка, оценка и использование алгоритма сегментации слов для систем мониторинга национальных интернет-ресурсов

// Информационные технологии и безопасность. Материалы XVII Международной научно-практической конференции ИТБ-2017. - К.: ООО "Инжиниринг", 2017. - C. 22-31.



Показана актуальность задачи сегментации слов при формировании индекса поисковых систем в связи с ростом ресурсов китайского и др. сегментов Интернет. Приведены варианты АСС, которые могут быть использованы для формирования индекса поисковой системы, показана применимость моделей на основе словаря.
Рассмотрены модели реализации FMM АСС на основе словаря. Предложен алгоритм сегментации с поиском кратчайшего пути в графе и разработано программное обеспечение.
Получены оценки качества сегментации и результаты использования модели АСС при формировании индекса поисковой системы для мониторинга веб-ресурсов китайского сегмента Интернет, которые показывают возможность использования алгоритма при достаточном объеме словаря.

PDF

HOME