Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации
dc.contributor.author | Хайрова, Нина Феликсовна | ru |
dc.contributor.author | Шаронова, Наталья Валерьевна | ru |
dc.contributor.author | Узлов, Дмитрий Юрьевич | ru |
dc.date.accessioned | 2020-08-10T10:12:52Z | |
dc.date.available | 2020-08-10T10:12:52Z | |
dc.date.issued | 2014 | |
dc.description.abstract | В работе показана возможность использования интегральных количественных показателей полноты, точности и меры Ван-Ризбергена для оценки эффективности информационно-лингвистических технологий идентификации знаний в текстах. Обосновывается возможность использования метода тестовых коллекций для экспериментального подтверждения достоверности получаемых коэффициентов эффективности. В работе исследуется проблема максимизации надежности использования результатов, полученных по репрезентативной выборке, для выводов о генеральной совокупности текстовой коллекции. Рассмотрены процедуры использования выборочной доли признака как статистической характеристики для оценивания доли релевантных документов в генеральной совокупности. Предложен метод определения доверительного интервала для доли признака, основанный на подходе Вилсона, и метод определения необходимого объема релевантной выборки. Приведены примеры реализации предложенного подхода средствами Microsoft Excel. | ru |
dc.description.abstract | The traditional approach (the comparison with a "reference" result) for evaluating quality of the technology to identify knowledge extracted from text arrays is badly applicable out of a need to create the reference answer for each specific set of electronic documents. In this paper we show that integral quantitative coefficients of recall, precision and F-measure can be used to assess effectiveness of linguistic technologies of knowledge identification in texts. Justifying the possibility of using the test collections method for the experimental validation of obtained efficiency coefficients, we propose the use of the approach based on mathematical statistics methods. The procedures of using sampling fraction of the indicator as a characteristic of evaluating the proportion of relevant documents in the general population are reviewed. The paper shows the argumentation to the fact that, in important practical cases of text collection samples, asymmetry of a confidence interval at the binomial distribution can be overcome by approximated transition to the normal distribution. We also propose the methods of determining the confidence interval for the indicator fraction that are based on Wilson approach, and the method of determining the required size of the relevant sample depending on the specified error and confidence probability as well. | ru |
dc.identifier.citation | Хайрова Н. Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации / Н. Хайрова, Н. Шаронова, Д. Узлов // International Journal Information Content and Processing / ed. K. Markov. – Bulgaria : ITHEA, 2014. – Vol. 1, № 3. – P. 239-248. | ru |
dc.identifier.uri | https://repository.kpi.kharkov.ua/handle/KhPI-Press/47693 | |
dc.language.iso | ru | |
dc.publisher | Institute of Information Theories and Applications FOI ITHEA | en |
dc.subject | полнота | ru |
dc.subject | точность | ru |
dc.subject | релевантность | ru |
dc.subject | доверительный интервал | ru |
dc.subject | объем | ru |
dc.subject | тестовая коллекция | ru |
dc.subject | evaluation of effectiveness | en |
dc.subject | semistructured text information | en |
dc.subject | test collections method | en |
dc.subject | size sample | en |
dc.title | Решение проблемы формальной оценки эффективности технологий идентификации знаний в слабоструктурированной текстовой информации | ru |
dc.title.alternative | Solution of the problem of formal evaluation of effectiveness of the technology knowledge identification in semistructured text information | en |
dc.type | Article | en |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- IJ_ICP_2014_1_3_Khairova_Reshenie_problemy.pdf
- Розмір:
- 215.48 KB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Вантажиться...
- Назва:
- license.txt
- Розмір:
- 11.25 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: