Экстракция фактов из слабоструктурированной текстовой информации

dc.contributor.authorХайрова, Нина Феликсовнаru
dc.contributor.authorШаронова, Наталья Валерьевнаru
dc.contributor.authorГаутам, Аджит Пратап Сингхru
dc.date.accessioned2020-08-10T10:32:02Z
dc.date.available2020-08-10T10:32:02Z
dc.date.issued2016
dc.description.abstractИзвлечение фактов из текстов представляет собой одно из центральных направлений Natural Language Processing. Большинство существующих подходов позволяет извлекать факты из хорошо структурированных текстов узкой тематической направленности, тогда как наибольший интерес представляет возможность автоматизации излечения фактической информации из слабоструктурированных текстов неограниченных предметных областей. Факт, представляющий собой фиксацию некоторого отношения сущностей в предложении, можно записать в виде триплета: Subject – Predicate – Object, в котором предикат представляет отношение, а субъект и объект определяют два предмета или понятия. В работе предлагается строгая модель, связывающая смысловые отношения между сущностями с элементами поверхностной структуры предложений естественного языка. Для формализации и явного представления средствами поверхностной структуры партиципантов триплета факта, называемого предложением английского языка, выделены и описаны предметными переменными конечные множества синтаксических и морфологических категорий. В статье рассмотрены три типа фактов и их атрибутов. Разработана программная имплементация полученной модели, предложена метрика формальной оценки эффективности технологии экстракции фактов из слабоструктурированной текстовой информации и обоснован объем экспериментальной выборки текстов, позволившей подтвердить достоверность полученной точности и полноты извлекаемых фактов.ru
dc.description.abstractFact extraction from the text is one of the most important areas of Natural Language Processing (NLP). Majority of existing approaches allows extracting facts from structured textual information of the specific subject areas. This paper proposes a logical-linguistic model extracting facts from semi-structured texts in English, which belong to unlimited subject areas. A fact is written in the form of a triplet: Subject – Predicate – Object, in which the Predicate defines the relations and Subject and Object define the subjects, objects or concepts. Our model defines meaning relations via grammatical and semantic features of the words in English sentences. In order to formalize and represent the participants of the fact triplet explicitly, we identify subject variables. The subject variables define a finite set of morphological and syntactic features of the words in sentences. The model was successfully implemented in the system of extraction and identification of a few types of the facts: the fact of lacking, the fact of ownership, the fact of transferring, and the fact of the presence of the attribute of time, location, and belonging for the first three fact actions. We estimated the effectiveness of our model via the coefficients of precision and recall. Results оf the paper show that using of the model lets increase the numerical values of these coefficients.en
dc.identifier.citationХайрова Н. Экстракция фактов из слабоструктурированной текстовой информации / Н. Хайрова, Н. Шаронова, А. П. С. Гаутам // Models and Analyses. – 2016. – Vol. 5, № 1. – P. 66-77.ru
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/47695
dc.language.isoru
dc.publisherInstitute of Information Theories and Applications FOI ITHEAen
dc.subjectсемантические отношенияru
dc.subjectалгебра конечных предикатовru
dc.subjectполнотаru
dc.subjectточностьru
dc.subjectfacts extraction from the texten
dc.subjectNatural Language Processingen
dc.subjectsemantic relationsen
dc.subjectalgebra of finite predicatesen
dc.subjectrecallen
dc.subjectprecisionen
dc.titleЭкстракция фактов из слабоструктурированной текстовой информацииru
dc.title.alternativeFacts extraction from the semi-structured text informationen
dc.typeArticleen

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
IJ_IMA_2016_5_1_Khairova_Ekstraktciia_faktov.pdf
Розмір:
345.3 KB
Формат:
Adobe Portable Document Format
Опис:

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
11.25 KB
Формат:
Item-specific license agreed upon to submission
Опис: