Автоматическая генерация структурированной машинно-читаемой информации из мультиязычных текстов

Ескіз

Дата

2019

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Институт информационных и вычислительных технологий, Республика Казахстан

Анотація

Open Information Extraction представляет современную стратегию извлечения фактов из коллекций веб-документов. Однако, большая часть современных подходов по извлечению фактов основана на таких, доступных не для всех естественных языков, техниках NLP, как POS-tagging, анализ зависимостей, Named Entity Recognition, Coreference Resolution и др. В этой работе для генерации фактов из текста произвольного веб-контента мы предлагаем использование уравнений алгебры конечных предикатов, выражающих семантические роли участников триплета факта через отношения грамматических и семантических характеристик слов предложения. Модель позволяет извлекать неограниченное количество доменно-независимых фактов из предложений разных языков. В работе показана имплементация модели для английского, казахского и русского языков.

Опис

Ключові слова

Open Information Extraction, доменно-независимые факты, извлечение, логико-лингвистическая модель, алгебра конечных предикатов

Бібліографічний опис

Автоматическая генерация структурированной машинно-читаемой информации из мультиязычных текстов / Н. Ф. Хайрова [и др.] // Информатика и прикладная математика : материалы 4-й междунар. науч.-практ. конф., посвящ. 70-летнему юбилею проф. Т. Н. Биярова, В. Вуйцика и 60-летию проф. Е. Н. Амиргалиева, 25-29 сентября 2019 г., Казахстан : в 2 ч. Ч. 2 / гл. ред. М. Н. Калимолдаев ; Ин-т информ. и вычислит. технологий МОН РК. – Алматы, 2019. – С. 509-519.

Підтвердження

Рецензія

Додано до

Згадується в