Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы

dc.contributor.authorХайрова, Нина Феликсовнаru
dc.contributor.authorШаронова, Наталья Валерьевнаru
dc.contributor.authorГаутам, Аджит Пратап Сингхru
dc.date.accessioned2020-08-10T11:55:39Z
dc.date.available2020-08-10T11:55:39Z
dc.date.issued2015
dc.description.abstractПодсистема накопления и генерации фактов представляет основу для принятия решений и проведения бизнес-разведки интегрированной корпоративной системы. Причина относительно малого количества систем генерации фактов из слабоструктурированной текстовой информации заключается в отсутствии четких алгоритмов извлечения фактов из текста, проверки их на непротиворечивость и невозможности семантической интерпретации полученных результатов, что не позволяет объединить их в общее единое пространство фактографической информации. В работе предлагается логиколингвистическая модель идентификации и экстракции фактов, позволяющая получить пространство фактов, динамически наполняемое из англоязычного текстового контента интегрированной корпоративной системы. Факт записывается в виде триплета: Subject – Predicate – Object, в котором предикат представляет отношение, а субъект и объект определяют два предмета или понятия. Такой факт записывается в виде двухместного предиката в логике первого порядка. Выделяются два типа фактов: факты, описывающие связь двух сущностей, одна из которых определяется как субъект, а вторая как объект предикатного действия, и факты, фиксирующие значение заранее определенного свойства. Математическая модель, связывающая информацию, содержащуюся в определении смысловых связей, с элементами поверхностной структуры предложений английского языка базируется на формальном аппарате алгебры конечных предикатов. Семантические связи между извлеченными понятиями текста, выражающие тот или иной факт, определяются через предикат, связывающий категории наличия предлога после глагола, существование апострофа, определяющего притяжательный падеж, расположения понятия в предложении, связи которого определяются, наличия глагола to be и формы основного глагола. В статье рассмотрен вид фактов, представляющий утверждение о некотором обладании, приобретении (или наличии) у некоторой сущности субъекта некоторой сущности объекта, и выделены связанные с ним факты второго типа, определяющие атрибут времени, места, способа действия и т. д. Разработана программная имплементация полученной модели, представляющая собой веб-приложение, на вход, которого поступают текстовые потоки разнородных источников информационной системы, а на выходе формируется базовое пространство фактов интегрированной корпоративной системы.ru
dc.description.abstractThis paper proposes a logical-linguistic model extracting semi-structured facts in English texts. To identify the fact some entities expressed by lexical units as well as semantic relations between them are defined in the text. The semantic relations are expressed by semantic functions of sentence participants. A fact is written in form of a triplet: Subject – Predicate – Object, in which the Predicate represents the relations and Subject and Object define the subjects, objects or concepts. Two types of the facts are defined. The first type is fact that describes relation between two entities; the second one is fact that fixes the value of a predetermined attribute. The functions are described by predicates of algebra of finite predicates. The mathematical model allows associating meaning relations of concepts of a sentence with elements of the syntactic and morphological structure of the English sentence. The model is applied to the semantic stage of linguistic processor of information subsystem for facts identification, which are essential for business analysis, in the framework a semi-structured texts. Software implementation of the model is designed. The input subsystem receives text streams disparate sources of information of the integrated corporate system, basic facts of space of the system are output. The accuracy and completeness extracted facts from texts in English by the subsystem are compatible with extracted facts by an expert.en
dc.identifier.citationХайрова Н. Логико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системы / Н. Хайрова, Н. Шаронова, А. П. С. Гаутам // International Journal Information Theories and Applications / Ed. K. Markov. – Bulgaria : ITHEA, 2015. – Vol. 22, № 2. – P. 142-152.ru
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/47698
dc.language.isoru
dc.publisherInstitute of Information Theories and Applications FOI ITHEAen
dc.subjectинформация фактографическаяru
dc.subjectавтоматическая экстракция фактовru
dc.subjectтекст англоязычныйru
dc.subjectсвязи семантическиеru
dc.subjectалгебра конечных предикатовru
dc.subjectsystem of facts generationen
dc.subjectautomatic facts extractionen
dc.subjectsemantic relationsen
dc.subjectalgebra of finite predicatesen
dc.subjectnatural language processingen
dc.titleЛогико-лингвистическая модель генерации фактов из текстовых потоков информационной корпоративной системыru
dc.typeArticleen

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
IJ_ITA_2015_22_2_Khairova_Lohyko-lynhvystych_model.pdf
Розмір:
435.24 KB
Формат:
Adobe Portable Document Format
Опис:

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
11.25 KB
Формат:
Item-specific license agreed upon to submission
Опис: