Моделі та методи очищення та інтеграції текстових даних в інформаційних системах

Вантажиться...
Ескіз

Дата

2016

ORCID

DOI

Науковий ступінь

кандидат технічних наук

Рівень дисертації

кандидатська дисертація

Шифр та назва спеціальності

05.13.06 – інформаційні технології

Рада захисту

Спеціалізована вчена рада Д 64.050.07

Установа захисту

Національний технічний університет "Харківський політехнічний інститут"

Науковий керівник

Гоменюк Сергій Іванович

Члени комітету

Куценко Олександр Сергійович
Гамаюн Ігор Петрович
Северин Валерій Петрович

Видавець

НТУ "ХПІ"

Анотація

Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – інформаційні технології. – Національний технічний університет «Харківський політехнічний інститут», Харків, 2016. У дисертаційній роботі вирішена актуальна науково-практична задача підвищення ефективності та якості технології очищення та інтеграції текстових даних в довідкових і пошукових інформаційних системах за рахунок використання моделей словозмінної парадигми та методу побудови лексемного індексу при організації пошуку за схожістю. Розроблено моделі словозмінної парадигми, що включають представлення слів та обчислення приблизної міри схожості між ними. Розроблено метод побудови лексемного індексу, що базується на запропонованих моделях словозмінної парадигми та дозволяє відобразити слово і всі його словоформи в один запис індексу. Удосконалено метод пошуку за схожістю за рахунок покращення етапу попередньої фільтрації завдяки використанню розробленої моделі словозмінної парадигми та лексемного індексу. Виконана експериментальна оцінка ефективності вказує на високу точність та 99 0,5 % повноту. Удосконалено інформаційну технологію очищення та інтеграції даних за рахунок розроблених моделей та методів. Розроблено програмну реалізацію, яка на базі запропонованих моделей та методів виконує пошук за схожістю, очищення та інтеграцію наборів даних. Одержані в роботі теоретичні та практичні результати впроваджено у виробничий процес документообігу приймальної комісії та навчальний процес математичного факультету Державного вищого навчального закладу «Запорізький національний університет».
The thesis for the candidate degree in technical sciences, speciality 05.13.06 – Information Technologies. – National Technical University «Kharkiv Polytechnic Institute», Kharkiv, 2016. In the thesis the actual scientific and practical problem of increasing the efficiency and quality of cleaning and integration of data in information reference system and information retrieval system is solved. The improvement of information technology of cleaning and integration of data is achieved by reduction of quantity of mistakes in text information by means of use of model of an inflectional paradigm, methods of creation of a lexeme index, advanced methods of tolerant retrieval. The developed model of an inflectional paradigm includes a representation of words as an ordered collection of signatures and an approximate measure of similarity between two representations. The model differs in method of dealing with forms of words and character positions. It provides the basis for the implementation of improved methods of tolerant retrieval, cleaning and integration of datasets. The method of creation of the lexeme index which is based on the offered model of an inflectional paradigm is developed, and it allows mapping a word and all its forms to a record of the index. The method of tolerant retrieval is improved at preliminary filtration stage thanks to the developed model of an inflectional paradigm and the lexeme index. The experimental efficiency evaluation indicates high precision and 99  0,5 % recall. The information technology of cleaning and integration of data is improved using the developed models and methods. The software which on the basis of the developed models and methods carries out tolerant retrieval, cleaning and integration of data sets was developed. Theoretical and practical results of the thesis are introduced in production of document flow of an entrance committee and educational process of mathematical faculty of the State institution of higher education «Zaporizhzhya National University».

Опис

Ключові слова

автореферат дисертації, інтеграція даних, очищення даних, схожість, представлення слова, хеш-функція, сигнатура, індекс пошуковий, зіставлення записів, cleaning of data, integration of data, tolerant retrieval, representation of words, hashing, signature, string similarity measure, approximate record matching, search index, record linkage

Бібліографічний опис

Тодоріко О. О. Моделі та методи очищення та інтеграції текстових даних в інформаційних системах [Електронний ресурс] : автореф. дис. ... канд. техн. наук : спец. 05.13.06 / Ольга Олексіївна Тодоріко ; [наук. керівник Гоменюк С. І.] ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2016. – 21 с. – Бібліогр.: с. 15-17. – укр.