Логико-лингвистическая модель извлечения фактов из слабоструктурированной текстовой информации

Ескіз

Дата

2013

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Institute of Information Theories and Applications FOI ITHEA

Анотація

Одним из перспективных направлений информационного поиска является фактографический поиск и разработка фактографических баз данных. Существующие сегодня модели и алгоритмы фактографического поиска в своем большинстве направлены на излечение фактов из хорошо формализованной информации, в том числе из хорошо формализованной текстовой информации. В работе предлагается модель извлечения фактографической информации из динамически меняющихся слабоформализованных текстовых потоков, не ограниченных определенными предметными областями. Для извлечения некоторого факта используется шаблон "агент-предикат-значение", отображающий отношения, формально выражаемые семантическими падежами партиципантов предложения. В предлагаемой логико-лингвистической модели семантические роли именных групп определяются отношением четко выделенных множеств морфологических, синтаксических и семантически категорий, описываемым с помощью базового аппарата алгебры конечных предикатов. В работе рассмотрена реализация данной модели для извлечения фактографической информации о дате, месте рождения и роде деятельности персоналии из русскоязычных слабоформалзованных текстов. Экспериментальная проверка программной имплементации модели показала правильность выделения факта примерно в 94,3% случаев.

Опис

Ключові слова

поиск фактографический, процессор лингвистический, алгебра конечных предикатов, извлечение информации

Бібліографічний опис

Хайрова Н. Логико-лингвистическая модель извлечения фактов из слабоструктурированной текстовой информации / Н. Хайрова, Н. Шаронова // Information Models and Analyses. – 2013. – Vol. 2, № 2. – P. 167-175.

Підтвердження

Рецензія

Додано до

Згадується в