Ланде Д.В., Дмитренко О.О.

Формал╕зац╕я знань та побудова терм╕нолог╕чних онтолог╕й у правов╕й галуз╕

// Парламентський контроль в умовах децентрал╕зац╕╖ державно╖ влади та цифрово╖ трансформац╕╖ в Укра╖н╕: стан ╕ проблеми : матер╕али Першо╖ всеукра╖нсько╖ науково-практично╖ конференц╕╖, м. Ки╖в, 30 березня 2021 р. - Ки╖в, 2021. - C. 35-39.

У ц╕й робот╕ для побудови терм╕нолог╕чно╖ онтолог╕╖, придатно╖ для автоматизовано╖ обробки, застосову╓ться л╕нгвомережева модель представлення текстових даних. Одним ╕з вид╕в тако╖ мережево╖ модел╕ ╓ мережа, що побудована ╕з ключових сл╕в та словосполучень (або просто - мережа терм╕н╕в). В н╕й вузли в╕дпов╕дають окремим ключовим поняттям предметно╖ галуз╕, а ребра - семантико-семантичним зв.язкам м╕ж ними.

Для виокремлення ключових терм╕н╕в застосову╓ться комп'ютерна обробка природномовних текст╕в, що включа╓ автоматичну сегментац╕ю на окрем╕ речення, розбиття на токени та розм╕чування частин мови й присво╓ння тег╕в кожному слову (Part-of-Speech tagging).

Використовуючи шаблони ключових сл╕в та словосполучень форму╓ться посл╕довн╕сть терм╕н╕в. Дал╕ зд╕йсню╓ться видалення одиничних стоп-сл╕в (окремих артикл╕в, прийменник╕в, сполучник╕в, деяких д╕╓сл╕в, присл╕вник╕в та займенник╕в), як╕ не несуть н╕якого ╕нформативного навантаження.

На наступному етап╕ для кожного сформованого терм╕на у порядку його зустр╕чання у текст╕ форму╓ться так званий кортеж. Кожен елемент кортежу склада╓ться з трьох значень: перше - терм╕н (слово або словосполучення, що отримане за одним ╕з шаблон╕в); наступне - тег, який присвою╓ться слову в залежност╕ в╕д його приналежност╕ до певно╖ частини мови; останн╕й елемент такого набору - числове значення GTF (глобальна частота терм╕на, що використову╓ться для статистичного зважування сл╕в та словосполучень, що входять у сформовану на попередньому етап╕ посл╕довн╕сть). Важливо зазначити, що GTF обчислю╓ться з урахуванням двох попередн╕х значень кортежу - терм╕на та частини мови, до яко╖ в╕н належить. К╕льк╕сть таких однакових кортеж╕в у всьому текст╕, що нормована на загальну к╕льк╕сть сформованих терм╕н╕в, ╕ визнача╓ значення третього елемента. Для встановлення ненаправлених зв.язк╕в м╕ж ключовими терм╕нами в межах кожного окремого речення застосову╓ться алгоритм графа горизонтально╖ видимост╕ для часових ряд╕в (Horizontal Visibility Graph - HVG). Сформована на попередньому етап╕ посл╕довн╕сть числових значень GTF, як╕ в╕дпов╕дають окремим кортежам, ╓ тим часовим рядом, який завдяки алгоритму HVG трансформу╓ться у ненаправлену мережу.

Для встановлення напрямк╕в зв.язк╕в враховувались емп╕ричн╕ правила. П╕сля об'╓днання однакових вузл╕в сумарна к╕льк╕сть однаково-направлених зв.язк╕в м╕ж цими вузлами визначала вагове значення зв.язку. Для апробац╕╖ представлено╖ у ц╕й робот╕ методики побудови мереж╕ терм╕н╕в було використано в╕льнодоступний правовий документ "Convention on the Rights of the Child", поданий англ╕йською мовою.

Доповiдь PDF   Супровiд PDF    Посилання PDF