Метод автоматичного визначення семантично близьких фрагментів новинних текстів

Складність семантичного аналізу текстової інформації, що міститься в новинних повідомленнях, визначається багатозначністю і синонімічністю, які властиві мові на всіх рівнях її представлення, що, перш за все, впливає на визначення смислово ї близькості мовних одиниць. Виявлення семантично близьких фрагментів текстів або перефразувань є актуальною проблемою у таких наукових напрямках як семантичний пошук інформації, видобування інформації, машинний переклад, визначення порушень авторських прав і т.п. , крім того широко використовується при рерайтингу. У статті проаналізовано основні проблеми рерайтинга, зокрема перефразування синтаксичних одиниць тексту зі збереженням смислового навантаження. Розглянуто сучасні методи визначення семантичної близькості слів, вказано основні переваги та недоліки. Запропоновано метод автоматичного виявлення синонімічних фрагментів новинних текстів на основі використання WordNet та розроблених синтаксичних правил, які зберігають інформацію про граматичні характеристики слів. Перевагою даного методу є те, що аналізується як граматична структура мови, так і смисл слів. Досліджуваний корпус представлено новинними текстами інформаційного агентства Reuters, служб CNN і BBC World News. Запропонований метод ідентифікації семантично зв’язних фрагментів тексту дозволяє виявити спільний інформаційний простір актуальних новин та може використовуватися для ефективного визначення близьких за змістом текстів в інформаційно-пошукових, експертних, аналітичних інформаційних системах. Вирішення завдання автоматичного визначення семантичної близькості може застосовуватися при автоматизованій побудові онтологій по тексту, для розширення існуючих і створення нових тезаурусів.
Depending on the ambiguity and synonymy at all language levels, the identification of semantic similarity of linguistic units is the challenging task of semantic analysis of text information contained in news reports. The extraction of semantically similar fragments of texts or paraphrases is an up-todate problem in fields of science such as semantic information retrieval, information extraction, machine translation, detection of copyright infringements, etc. and is widely used in rewriting. The article analyzes the main problems of rewriting, in particular, the paraphrasing of syntactic text units keeping the sense load. The modern methods for identification of semantic similarity of words, their advantages and disadvantages are considered. Based on the use of WordNet and the developed syntactic rules that store information about the grammatical characteristics of words, a method for automatic identification of synonymous fragments of news texts is proposed. The advantage of this method is that both the grammatical structure of the language and the meaning of words (using WordNet) are analyzed. The experimental corpus is represented by news texts from Reuters news agency, BBC World News and CNN services. The proposed method for identifying semantically similar text fragments allows defining the common information space of current news and can be used to effectively identify related texts in information retrieval, expert, analytical information and rewriting systems. The automatic identification of semantic similarity could be implemented in automated construction of ontologies, in expansion of existing and creation of new thesauri.

Ключові слова

семантика, тексти, структура текстів, рерайтинг, перефразування, онтологія, тезаурус, семантична близькість слів, новинні тексти, WordNet, rewriting, corpus of news texts, paraphrasing, semantic similarity, syntactic rules

Бібліографічний опис

Метод автоматичного визначення семантично близьких фрагментів новинних текстів / С. В. Петрасова [та ін.] // Вісник Національного технічного університету "ХПІ". Сер. : Актуальні проблеми розвитку українського суспільства = Bulletin of the National Technical University "KhPI". Ser. : Actual problems of Ukrainian society development : зб. наук. пр. – Харків : НТУ "ХПІ", 2019. – № 1. – С. 98-102.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/46902

Колекції

Вісник № 01. Актуальні проблеми розвитку українського суспільства
Кафедра "Інтелектуальні комп'ютерні системи"

Повна інформація про документ
Google Scholar

Метод автоматичного визначення семантично близьких фрагментів новинних текстів

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в