Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы

Ескіз

Дата

2015

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Institute of Information Theories and Applications FOI ITHEA

Анотація

Подсистема накопления и генерации фактов представляет основу для принятия решений и проведения бизнес-разведки интегрированной корпоративной системы. Причина относительно малого количества систем генерации фактов из слабоструктурированной текстовой информации заключается в отсутствии четких алгоритмов извлечения фактов из текста, проверки их на непротиворечивость и невозможности семантической интерпретации полученных результатов, что не позволяет объединить их в общее единое пространство фактографической информации. В работе предлагается логиколингвистическая модель идентификации и экстракции фактов, позволяющая получить пространство фактов, динамически наполняемое из англоязычного текстового контента интегрированной корпоративной системы. Факт записывается в виде триплета: Subject – Predicate – Object, в котором предикат представляет отношение, а субъект и объект определяют два предмета или понятия. Такой факт записывается в виде двухместного предиката в логике первого порядка. Выделяются два типа фактов: факты, описывающие связь двух сущностей, одна из которых определяется как субъект, а вторая как объект предикатного действия, и факты, фиксирующие значение заранее определенного свойства. Математическая модель, связывающая информацию, содержащуюся в определении смысловых связей, с элементами поверхностной структуры предложений английского языка базируется на формальном аппарате алгебры конечных предикатов. Семантические связи между извлеченными понятиями текста, выражающие тот или иной факт, определяются через предикат, связывающий категории наличия предлога после глагола, существование апострофа, определяющего притяжательный падеж, расположения понятия в предложении, связи которого определяются, наличия глагола to be и формы основного глагола. В статье рассмотрен вид фактов, представляющий утверждение о некотором обладании, приобретении (или наличии) у некоторой сущности субъекта некоторой сущности объекта, и выделены связанные с ним факты второго типа, определяющие атрибут времени, места, способа действия и т. д. Разработана программная имплементация полученной модели, представляющая собой веб-приложение, на вход, которого поступают текстовые потоки разнородных источников информационной системы, а на выходе формируется базовое пространство фактов интегрированной корпоративной системы.
This paper proposes a logical-linguistic model extracting semi-structured facts in English texts. To identify the fact some entities expressed by lexical units as well as semantic relations between them are defined in the text. The semantic relations are expressed by semantic functions of sentence participants. A fact is written in form of a triplet: Subject – Predicate – Object, in which the Predicate represents the relations and Subject and Object define the subjects, objects or concepts. Two types of the facts are defined. The first type is fact that describes relation between two entities; the second one is fact that fixes the value of a predetermined attribute. The functions are described by predicates of algebra of finite predicates. The mathematical model allows associating meaning relations of concepts of a sentence with elements of the syntactic and morphological structure of the English sentence. The model is applied to the semantic stage of linguistic processor of information subsystem for facts identification, which are essential for business analysis, in the framework a semi-structured texts. Software implementation of the model is designed. The input subsystem receives text streams disparate sources of information of the integrated corporate system, basic facts of space of the system are output. The accuracy and completeness extracted facts from texts in English by the subsystem are compatible with extracted facts by an expert.

Опис

Ключові слова

информация фактографическая, автоматическая экстракция фактов, текст англоязычный, связи семантические, алгебра конечных предикатов, system of facts generation, automatic facts extraction, semantic relations, algebra of finite predicates, natural language processing

Бібліографічний опис

Хайрова Н. Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы / Н. Хайрова, Н. Шаронова, А. П. С. Гаутам // International Journal Information Theories and Applications / Ed. K. Markov. – Bulgaria : ITHEA, 2015. – Vol. 22, № 2. – P. 142-152.

Підтвердження

Рецензія

Додано до

Згадується в