Ланде Д.В.
Метод побудови дайджесту, що базу╓ться на дискрим╕нантн╕й ваз╕ опорних сл╕в// Ре╓страц╕я, збер╕гання ╕ обробка даних. Щор╕чна п╕дсумкова наукова конференц╕я 18-19 травня 2021 року: зб╕рник / - Ки╖в: ╤ПР╤ НАН Укра╖ни, 2021. - С. 111-113.


Виб╕р найб╕льш ╕нформац╕йних, релевантних ╕нформац╕йн╕й потреб╕ користувача документ╕в _ задача неоднозначна. Обмежену сукупн╕сть таких документ╕в, оформлену у зручному для сприйняття вигляд╕ звичайно називають дайджестом. Зазвичай дайджести формують люди, експерти-анал╕тики. Автоматизац╕я цього процесу зд╕йсню╓ться на засадах р╕зноман╕тних л╕нгвостатистичних алгоритм╕в, серед яких в╕дом╕ алгоритми кластерного анал╕зу, передус╕м K-means, LSA, алгоритми, що базуються на текстових маркерах (вони критично залежать в╕д мови документ╕в), мережевих, г╕бридних.

Загальна проблема вс╕х ╕снуючих алгоритм╕в - великий час виконання, пов.язаний ╕з такими проблемами: 1) обчислювальною складн╕стю; 2) отриманням як╕сного дайджесту; 3) оц╕нюванням якост╕ створеного дайджесту. Автором вже було запропоновано оц╕нювати як╕сть реферування на основн╕ теор╕╖ ╕нформац╕╖ (дивергенц╕╖ Дженсена-Шеннона) [3], що частково розв.язу╓ 3 проблему. Запропонований в ц╕й робот╕ алгоритм за рахунок врахування семантичних маркер╕в текст╕в ╕ практично л╕н╕йно╖ обчислювально╖ складност╕ да╓ частковий розв.язок проблеми 1) ╕ 2).

Алгоритм передбача╓ роботу ╕з заздалег╕дь визначеними опорними словами, за рахунок чого забезпечу╓ться швидк╕сть ╕ як╕сть. Цей алгоритм, як ╕ в╕домий алгоритм LSA, ╓ алгоритмом кластерного анал╕зу, в якому застосову╓ться матричне представлення даних.

Новизна алгоритму поляга╓ в визначенн╕ формули для розрахунку дискрим╕нантно╖ ваги опорних сл╕в, найвагом╕ш╕ з яких по сут╕ виступають центрами для визначення кластер╕в - центро╖дами.

Складн╕сть наведеного алгоритму л╕н╕йна, в╕н також може виступати як основа первинного вибору центро╖д╕в для ╕ншого швидкозб╕жного алгоритму . K-means.

PDF

HOME