Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы

Хайрова, Нина Феликсовна; Шаронова, Наталья Валерьевна; Гаутам, Аджит Пратап Сингх

Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы

dc.contributor.author	Хайрова, Нина Феликсовна	ru
dc.contributor.author	Шаронова, Наталья Валерьевна	ru
dc.contributor.author	Гаутам, Аджит Пратап Сингх	ru
dc.date.accessioned	2020-08-10T11:55:39Z
dc.date.available	2020-08-10T11:55:39Z
dc.date.issued	2015
dc.description.abstract	Подсистема накопления и генерации фактов представляет основу для принятия решений и проведения бизнес-разведки интегрированной корпоративной системы. Причина относительно малого количества систем генерации фактов из слабоструктурированной текстовой информации заключается в отсутствии четких алгоритмов извлечения фактов из текста, проверки их на непротиворечивость и невозможности семантической интерпретации полученных результатов, что не позволяет объединить их в общее единое пространство фактографической информации. В работе предлагается логиколингвистическая модель идентификации и экстракции фактов, позволяющая получить пространство фактов, динамически наполняемое из англоязычного текстового контента интегрированной корпоративной системы. Факт записывается в виде триплета: Subject – Predicate – Object, в котором предикат представляет отношение, а субъект и объект определяют два предмета или понятия. Такой факт записывается в виде двухместного предиката в логике первого порядка. Выделяются два типа фактов: факты, описывающие связь двух сущностей, одна из которых определяется как субъект, а вторая как объект предикатного действия, и факты, фиксирующие значение заранее определенного свойства. Математическая модель, связывающая информацию, содержащуюся в определении смысловых связей, с элементами поверхностной структуры предложений английского языка базируется на формальном аппарате алгебры конечных предикатов. Семантические связи между извлеченными понятиями текста, выражающие тот или иной факт, определяются через предикат, связывающий категории наличия предлога после глагола, существование апострофа, определяющего притяжательный падеж, расположения понятия в предложении, связи которого определяются, наличия глагола to be и формы основного глагола. В статье рассмотрен вид фактов, представляющий утверждение о некотором обладании, приобретении (или наличии) у некоторой сущности субъекта некоторой сущности объекта, и выделены связанные с ним факты второго типа, определяющие атрибут времени, места, способа действия и т. д. Разработана программная имплементация полученной модели, представляющая собой веб-приложение, на вход, которого поступают текстовые потоки разнородных источников информационной системы, а на выходе формируется базовое пространство фактов интегрированной корпоративной системы.	ru
dc.description.abstract	This paper proposes a logical-linguistic model extracting semi-structured facts in English texts. To identify the fact some entities expressed by lexical units as well as semantic relations between them are defined in the text. The semantic relations are expressed by semantic functions of sentence participants. A fact is written in form of a triplet: Subject – Predicate – Object, in which the Predicate represents the relations and Subject and Object define the subjects, objects or concepts. Two types of the facts are defined. The first type is fact that describes relation between two entities; the second one is fact that fixes the value of a predetermined attribute. The functions are described by predicates of algebra of finite predicates. The mathematical model allows associating meaning relations of concepts of a sentence with elements of the syntactic and morphological structure of the English sentence. The model is applied to the semantic stage of linguistic processor of information subsystem for facts identification, which are essential for business analysis, in the framework a semi-structured texts. Software implementation of the model is designed. The input subsystem receives text streams disparate sources of information of the integrated corporate system, basic facts of space of the system are output. The accuracy and completeness extracted facts from texts in English by the subsystem are compatible with extracted facts by an expert.	en
dc.identifier.citation	Хайрова Н. Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы / Н. Хайрова, Н. Шаронова, А. П. С. Гаутам // International Journal Information Theories and Applications / Ed. K. Markov. – Bulgaria : ITHEA, 2015. – Vol. 22, № 2. – P. 142-152.	ru
dc.identifier.uri	https://repository.kpi.kharkov.ua/handle/KhPI-Press/47698
dc.language.iso	ru
dc.publisher	Institute of Information Theories and Applications FOI ITHEA	en
dc.subject	информация фактографическая	ru
dc.subject	автоматическая экстракция фактов	ru
dc.subject	текст англоязычный	ru
dc.subject	связи семантические	ru
dc.subject	алгебра конечных предикатов	ru
dc.subject	system of facts generation	en
dc.subject	automatic facts extraction	en
dc.subject	semantic relations	en
dc.subject	algebra of finite predicates	en
dc.subject	natural language processing	en
dc.title	Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы	ru
dc.type	Article	en

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: IJ_ITA_2015_22_2_Khairova_Lohyko-lynhvystych_model.pdf
Розмір:: 435.24 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 11.25 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекції

Кафедра "Інтелектуальні комп'ютерні системи"