Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации

dc.contributor.authorХайрова, Нина Феликсовнаru
dc.contributor.authorШаронова, Наталья Валерьевнаru
dc.contributor.authorУзлов, Дмитрий Юрьевичru
dc.date.accessioned2020-08-10T10:12:52Z
dc.date.available2020-08-10T10:12:52Z
dc.date.issued2014
dc.description.abstractВ работе показана возможность использования интегральных количественных показателей полноты, точности и меры Ван-Ризбергена для оценки эффективности информационно-лингвистических технологий идентификации знаний в текстах. Обосновывается возможность использования метода тестовых коллекций для экспериментального подтверждения достоверности получаемых коэффициентов эффективности. В работе исследуется проблема максимизации надежности использования результатов, полученных по репрезентативной выборке, для выводов о генеральной совокупности текстовой коллекции. Рассмотрены процедуры использования выборочной доли признака как статистической характеристики для оценивания доли релевантных документов в генеральной совокупности. Предложен метод определения доверительного интервала для доли признака, основанный на подходе Вилсона, и метод определения необходимого объема релевантной выборки. Приведены примеры реализации предложенного подхода средствами Microsoft Excel.ru
dc.description.abstractThe traditional approach (the comparison with a "reference" result) for evaluating quality of the technology to identify knowledge extracted from text arrays is badly applicable out of a need to create the reference answer for each specific set of electronic documents. In this paper we show that integral quantitative coefficients of recall, precision and F-measure can be used to assess effectiveness of linguistic technologies of knowledge identification in texts. Justifying the possibility of using the test collections method for the experimental validation of obtained efficiency coefficients, we propose the use of the approach based on mathematical statistics methods. The procedures of using sampling fraction of the indicator as a characteristic of evaluating the proportion of relevant documents in the general population are reviewed. The paper shows the argumentation to the fact that, in important practical cases of text collection samples, asymmetry of a confidence interval at the binomial distribution can be overcome by approximated transition to the normal distribution. We also propose the methods of determining the confidence interval for the indicator fraction that are based on Wilson approach, and the method of determining the required size of the relevant sample depending on the specified error and confidence probability as well.ru
dc.identifier.citationХайрова Н. Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации / Н. Хайрова, Н. Шаронова, Д. Узлов // International Journal Information Content and Processing / ed. K. Markov. – Bulgaria : ITHEA, 2014. – Vol. 1, № 3. – P. 239-248.ru
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/47693
dc.language.isoru
dc.publisherInstitute of Information Theories and Applications FOI ITHEAen
dc.subjectполнотаru
dc.subjectточностьru
dc.subjectрелевантностьru
dc.subjectдоверительный интервалru
dc.subjectобъемru
dc.subjectтестовая коллекцияru
dc.subjectevaluation of effectivenessen
dc.subjectsemistructured text informationen
dc.subjecttest collections methoden
dc.subjectsize sampleen
dc.titleРешение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информацииru
dc.title.alternativeSolution of the problem of formal evaluation of effectiveness of the technology knowledge identification in semistructured text informationen
dc.typeArticleen

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
IJ_ICP_2014_1_3_Khairova_Reshenie_problemy.pdf
Розмір:
215.48 KB
Формат:
Adobe Portable Document Format
Опис:

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
license.txt
Розмір:
11.25 KB
Формат:
Item-specific license agreed upon to submission
Опис: