Экстракция фактов из слабоструктурированной текстовой информации

Вантажиться...
Ескіз

Дата

2016

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

Institute of Information Theories and Applications FOI ITHEA

Анотація

Извлечение фактов из текстов представляет собой одно из центральных направлений Natural Language Processing. Большинство существующих подходов позволяет извлекать факты из хорошо структурированных текстов узкой тематической направленности, тогда как наибольший интерес представляет возможность автоматизации излечения фактической информации из слабоструктурированных текстов неограниченных предметных областей. Факт, представляющий собой фиксацию некоторого отношения сущностей в предложении, можно записать в виде триплета: Subject – Predicate – Object, в котором предикат представляет отношение, а субъект и объект определяют два предмета или понятия. В работе предлагается строгая модель, связывающая смысловые отношения между сущностями с элементами поверхностной структуры предложений естественного языка. Для формализации и явного представления средствами поверхностной структуры партиципантов триплета факта, называемого предложением английского языка, выделены и описаны предметными переменными конечные множества синтаксических и морфологических категорий. В статье рассмотрены три типа фактов и их атрибутов. Разработана программная имплементация полученной модели, предложена метрика формальной оценки эффективности технологии экстракции фактов из слабоструктурированной текстовой информации и обоснован объем экспериментальной выборки текстов, позволившей подтвердить достоверность полученной точности и полноты извлекаемых фактов.
Fact extraction from the text is one of the most important areas of Natural Language Processing (NLP). Majority of existing approaches allows extracting facts from structured textual information of the specific subject areas. This paper proposes a logical-linguistic model extracting facts from semi-structured texts in English, which belong to unlimited subject areas. A fact is written in the form of a triplet: Subject – Predicate – Object, in which the Predicate defines the relations and Subject and Object define the subjects, objects or concepts. Our model defines meaning relations via grammatical and semantic features of the words in English sentences. In order to formalize and represent the participants of the fact triplet explicitly, we identify subject variables. The subject variables define a finite set of morphological and syntactic features of the words in sentences. The model was successfully implemented in the system of extraction and identification of a few types of the facts: the fact of lacking, the fact of ownership, the fact of transferring, and the fact of the presence of the attribute of time, location, and belonging for the first three fact actions. We estimated the effectiveness of our model via the coefficients of precision and recall. Results оf the paper show that using of the model lets increase the numerical values of these coefficients.

Опис

Ключові слова

семантические отношения, алгебра конечных предикатов, полнота, точность, facts extraction from the text, Natural Language Processing, semantic relations, algebra of finite predicates, recall, precision

Бібліографічний опис

Хайрова Н. Экстракция фактов из слабоструктурированной текстовой информации / Н. Хайрова, Н. Шаронова, А. П. С. Гаутам // Models and Analyses. – 2016. – Vol. 5, № 1. – P. 66-77.