Ланде Д.В.
|
Виб╕р найб╕льш ╕нформац╕йних, релевантних ╕нформац╕йн╕й потреб╕ користувача документ╕в _ задача неоднозначна. Обмежену сукупн╕сть таких документ╕в, оформлену у зручному для сприйняття вигляд╕ звичайно називають дайджестом. Зазвичай дайджести формують люди, експерти-анал╕тики. Автоматизац╕я цього процесу зд╕йсню╓ться на засадах р╕зноман╕тних л╕нгвостатистичних алгоритм╕в, серед яких в╕дом╕ алгоритми кластерного анал╕зу, передус╕м K-means, LSA, алгоритми, що базуються на текстових маркерах (вони критично залежать в╕д мови документ╕в), мережевих, г╕бридних. Загальна проблема вс╕х ╕снуючих алгоритм╕в - великий час виконання, пов.язаний ╕з такими проблемами: 1) обчислювальною складн╕стю; 2) отриманням як╕сного дайджесту; 3) оц╕нюванням якост╕ створеного дайджесту. Автором вже було запропоновано оц╕нювати як╕сть реферування на основн╕ теор╕╖ ╕нформац╕╖ (дивергенц╕╖ Дженсена-Шеннона) [3], що частково розв.язу╓ 3 проблему. Запропонований в ц╕й робот╕ алгоритм за рахунок врахування семантичних маркер╕в текст╕в ╕ практично л╕н╕йно╖ обчислювально╖ складност╕ да╓ частковий розв.язок проблеми 1) ╕ 2). Алгоритм передбача╓ роботу ╕з заздалег╕дь визначеними опорними словами, за рахунок чого забезпечу╓ться швидк╕сть ╕ як╕сть. Цей алгоритм, як ╕ в╕домий алгоритм LSA, ╓ алгоритмом кластерного анал╕зу, в якому застосову╓ться матричне представлення даних. Новизна алгоритму поляга╓ в визначенн╕ формули для розрахунку дискрим╕нантно╖ ваги опорних сл╕в, найвагом╕ш╕ з яких по сут╕ виступають центрами для визначення кластер╕в - центро╖дами. Складн╕сть наведеного алгоритму л╕н╕йна, в╕н також може виступати як основа первинного вибору центро╖д╕в для ╕ншого швидкозб╕жного алгоритму . K-means. |