Автоматическая генерация структурированной машинно-читаемой информации из мультиязычных текстов
Loading...
Date
item.page.orcid
DOI
item.page.thesis.degree.name
item.page.thesis.degree.level
item.page.thesis.degree.discipline
item.page.thesis.degree.department
item.page.thesis.degree.grantor
item.page.thesis.degree.advisor
item.page.thesis.degree.committeeMember
Journal Title
Journal ISSN
Volume Title
Publisher
Институт информационных и вычислительных технологий, Республика Казахстан
Abstract
Open Information Extraction представляет современную стратегию извлечения фактов из коллекций веб-документов. Однако, большая часть современных подходов по извлечению фактов основана на таких, доступных не для всех естественных языков, техниках NLP, как POS-tagging, анализ зависимостей, Named Entity Recognition, Coreference Resolution и др. В этой работе для генерации фактов из текста произвольного веб-контента мы предлагаем использование уравнений алгебры конечных предикатов, выражающих семантические роли участников триплета факта через отношения грамматических и семантических характеристик слов предложения. Модель позволяет извлекать неограниченное количество доменно-независимых фактов из предложений разных языков. В работе показана имплементация модели для английского, казахского и русского языков.
Description
Keywords
Citation
Автоматическая генерация структурированной машинно-читаемой информации из мультиязычных текстов / Н. Ф. Хайрова [и др.] // Информатика и прикладная математика : материалы 4-й междунар. науч.-практ. конф., посвящ. 70-летнему юбилею проф. Т. Н. Биярова, В. Вуйцика и 60-летию проф. Е. Н. Амиргалиева, 25-29 сентября 2019 г., Казахстан : в 2 ч. Ч. 2 / гл. ред. М. Н. Калимолдаев ; Ин-т информ. и вычислит. технологий МОН РК. – Алматы, 2019. – С. 509-519.
