Ланде Д.В.
|
![]() |
![]() |
Вибір найбільш інформаційних, релевантних інформаційній потребі користувача документів _ задача неоднозначна. Обмежену сукупність таких документів, оформлену у зручному для сприйняття вигляді звичайно називають дайджестом. Зазвичай дайджести формують люди, експерти-аналітики. Автоматизація цього процесу здійснюється на засадах різноманітних лінгвостатистичних алгоритмів, серед яких відомі алгоритми кластерного аналізу, передусім K-means, LSA, алгоритми, що базуються на текстових маркерах (вони критично залежать від мови документів), мережевих, гібридних. Загальна проблема всіх існуючих алгоритмів - великий час виконання, пов.язаний із такими проблемами: 1) обчислювальною складністю; 2) отриманням якісного дайджесту; 3) оцінюванням якості створеного дайджесту. Автором вже було запропоновано оцінювати якість реферування на основні теорії інформації (дивергенції Дженсена-Шеннона) [3], що частково розв.язує 3 проблему. Запропонований в цій роботі алгоритм за рахунок врахування семантичних маркерів текстів і практично лінійної обчислювальної складності дає частковий розв.язок проблеми 1) і 2). Алгоритм передбачає роботу із заздалегідь визначеними опорними словами, за рахунок чого забезпечується швидкість і якість. Цей алгоритм, як і відомий алгоритм LSA, є алгоритмом кластерного аналізу, в якому застосовується матричне представлення даних. Новизна алгоритму полягає в визначенні формули для розрахунку дискримінантної ваги опорних слів, найвагоміші з яких по суті виступають центрами для визначення кластерів - центроїдами. Складність наведеного алгоритму лінійна, він також може виступати як основа первинного вибору центроїдів для іншого швидкозбіжного алгоритму . K-means. |