Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации

Хайрова, Нина Феликсовна; Шаронова, Наталья Валерьевна; Узлов, Дмитрий Юрьевич

Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации

Файли

IJ_ICP_2014_1_3_Khairova_Reshenie_problemy.pdf (215.48 KB)

Дата

2014

Автори

Хайрова, Нина Феликсовна

Шаронова, Наталья Валерьевна

Узлов, Дмитрий Юрьевич

Видавець

Institute of Information Theories and Applications FOI ITHEA

Анотація

В работе показана возможность использования интегральных количественных показателей полноты, точности и меры Ван-Ризбергена для оценки эффективности информационно-лингвистических технологий идентификации знаний в текстах. Обосновывается возможность использования метода тестовых коллекций для экспериментального подтверждения достоверности получаемых коэффициентов эффективности. В работе исследуется проблема максимизации надежности использования результатов, полученных по репрезентативной выборке, для выводов о генеральной совокупности текстовой коллекции. Рассмотрены процедуры использования выборочной доли признака как статистической характеристики для оценивания доли релевантных документов в генеральной совокупности. Предложен метод определения доверительного интервала для доли признака, основанный на подходе Вилсона, и метод определения необходимого объема релевантной выборки. Приведены примеры реализации предложенного подхода средствами Microsoft Excel.
The traditional approach (the comparison with a "reference" result) for evaluating quality of the technology to identify knowledge extracted from text arrays is badly applicable out of a need to create the reference answer for each specific set of electronic documents. In this paper we show that integral quantitative coefficients of recall, precision and F-measure can be used to assess effectiveness of linguistic technologies of knowledge identification in texts. Justifying the possibility of using the test collections method for the experimental validation of obtained efficiency coefficients, we propose the use of the approach based on mathematical statistics methods. The procedures of using sampling fraction of the indicator as a characteristic of evaluating the proportion of relevant documents in the general population are reviewed. The paper shows the argumentation to the fact that, in important practical cases of text collection samples, asymmetry of a confidence interval at the binomial distribution can be overcome by approximated transition to the normal distribution. We also propose the methods of determining the confidence interval for the indicator fraction that are based on Wilson approach, and the method of determining the required size of the relevant sample depending on the specified error and confidence probability as well.

Ключові слова

полнота, точность, релевантность, доверительный интервал, объем, тестовая коллекция, evaluation of effectiveness, semistructured text information, test collections method, size sample

Бібліографічний опис

Хайрова Н. Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации / Н. Хайрова, Н. Шаронова, Д. Узлов // International Journal Information Content and Processing / ed. K. Markov. – Bulgaria : ITHEA, 2014. – Vol. 1, № 3. – P. 239-248.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/47693

Колекції

Кафедра "Інтелектуальні комп'ютерні системи"

Повна інформація про документ
Google Scholar

Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в