Логико-лингвистическая модель извлечения фактов из слабоструктурированной текстовой информации
Loading...
Date
item.page.orcid
item.page.doi
item.page.thesis.degree.name
item.page.thesis.degree.level
item.page.thesis.degree.discipline
item.page.thesis.degree.department
item.page.thesis.degree.grantor
item.page.thesis.degree.advisor
item.page.thesis.degree.committeeMember
Journal Title
Journal ISSN
Volume Title
Publisher
Institute of Information Theories and Applications FOI ITHEA
Abstract
Одним из перспективных направлений информационного поиска является фактографический поиск и разработка фактографических баз данных. Существующие сегодня модели и алгоритмы фактографического поиска в своем большинстве направлены на излечение фактов из хорошо формализованной информации, в том числе из хорошо формализованной текстовой информации. В работе предлагается модель извлечения фактографической информации из динамически меняющихся слабоформализованных текстовых потоков, не ограниченных определенными предметными областями. Для извлечения некоторого факта используется шаблон "агент-предикат-значение", отображающий отношения, формально выражаемые семантическими падежами партиципантов предложения. В предлагаемой логико-лингвистической модели семантические роли именных групп определяются отношением четко выделенных множеств морфологических, синтаксических и семантически категорий, описываемым с помощью базового аппарата алгебры конечных предикатов. В работе рассмотрена реализация данной модели для извлечения фактографической информации о дате, месте рождения и роде деятельности персоналии из русскоязычных слабоформалзованных текстов. Экспериментальная проверка программной имплементации модели показала правильность выделения факта примерно в 94,3% случаев.
Description
Citation
Хайрова Н. Логико-лингвистическая модель извлечения фактов из слабоструктурированной текстовой информации / Н. Хайрова, Н. Шаронова // Information Models and Analyses. – 2013. – Vol. 2, № 2. – P. 167-175.