Dmytro Lande. Доклад

Ланде Д.В.
Метод побудови дайджесту, що базується на дискримінантній вазі опорних слів// Реєстрація, зберігання і обробка даних. Щорічна підсумкова наукова конференція 18-19 травня 2021 року: збірник / - Київ: ІПРІ НАН України, 2021. - С. 111-113.

Вибір найбільш інформаційних, релевантних інформаційній потребі користувача документів _ задача неоднозначна. Обмежену сукупність таких документів, оформлену у зручному для сприйняття вигляді звичайно називають дайджестом. Зазвичай дайджести формують люди, експерти-аналітики. Автоматизація цього процесу здійснюється на засадах різноманітних лінгвостатистичних алгоритмів, серед яких відомі алгоритми кластерного аналізу, передусім K-means, LSA, алгоритми, що базуються на текстових маркерах (вони критично залежать від мови документів), мережевих, гібридних.

Загальна проблема всіх існуючих алгоритмів - великий час виконання, пов.язаний із такими проблемами: 1) обчислювальною складністю; 2) отриманням якісного дайджесту; 3) оцінюванням якості створеного дайджесту. Автором вже було запропоновано оцінювати якість реферування на основні теорії інформації (дивергенції Дженсена-Шеннона) [3], що частково розв.язує 3 проблему. Запропонований в цій роботі алгоритм за рахунок врахування семантичних маркерів текстів і практично лінійної обчислювальної складності дає частковий розв.язок проблеми 1) і 2).

Алгоритм передбачає роботу із заздалегідь визначеними опорними словами, за рахунок чого забезпечується швидкість і якість. Цей алгоритм, як і відомий алгоритм LSA, є алгоритмом кластерного аналізу, в якому застосовується матричне представлення даних.

Новизна алгоритму полягає в визначенні формули для розрахунку дискримінантної ваги опорних слів, найвагоміші з яких по суті виступають центрами для визначення кластерів - центроїдами.

Складність наведеного алгоритму лінійна, він також може виступати як основа первинного вибору центроїдів для іншого швидкозбіжного алгоритму . K-means.