Моделі та методи очищення та інтеграції текстових даних в інформаційних системах

dc.contributor.authorТодоріко, Ольга Олексіївнаuk
dc.date.accessioned2016-05-31T12:32:01Z
dc.date.available2016-05-31T12:32:01Z
dc.date.issued2016
dc.description.abstractДисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – інформаційні технології. – Національний технічний університет "Харківський політехнічний інститут", Харків, 2016. У дисертаційній роботі вирішена актуальна науково-практична задача підвищення ефективності та якості технології очищення та інтеграції текстових даних в довідкових і пошукових інформаційних системах за рахунок використання моделей словозмінної парадигми та методу побудови лексемного індексу при організації пошуку за схожістю. Розроблено моделі словозмінної парадигми, що включають представлення слів та обчислення приблизної міри схожості між ними. Розроблено метод побудови лексемного індексу, що базується на запропонованих моделях словозмінної парадигми та дозволяє відобразити слово і всі його словоформи в один запис індексу. Удосконалено метод пошуку за схожістю за рахунок покращення етапу попередньої фільтрації завдяки використанню розробленої моделі словозмінної парадигми та лексемного індексу. Виконана експериментальна оцінка ефективності вказує на високу точність та 99 0,5 % повноту. Удосконалено інформаційну технологію очищення та інтеграції даних за рахунок розроблених моделей та методів. Розроблено програмну реалізацію, яка на базі запропонованих моделей та методів виконує пошук за схожістю, очищення та інтеграцію наборів даних. Одержані в роботі теоретичні та практичні результати впроваджено у виробничий процес документообігу приймальної комісії та навчальний процес математичного факультету Державного вищого навчального закладу "Запорізький національний університет".uk
dc.description.abstractThe thesis for the candidate degree in technical sciences, speciality 05.13.06 – Information Technologies. – National Technical University "Kharkiv Polytechnic Institute", Kharkiv, 2016. In the thesis the actual scientific and practical problem of increasing the efficiency and quality of cleaning and integration of data in information reference system and information retrieval system is solved. The improvement of information technology of cleaning and integration of data is achieved by reduction of quantity of mistakes in text information by means of use of model of an inflectional paradigm, methods of creation of a lexeme index, advanced methods of tolerant retrieval. The developed model of an inflectional paradigm includes a representation of words as an ordered collection of signatures and an approximate measure of similarity between two representations. The model differs in method of dealing with forms of words and character positions. It provides the basis for the implementation of improved methods of tolerant retrieval, cleaning and integration of datasets. The method of creation of the lexeme index which is based on the offered model of an inflectional paradigm is developed, and it allows mapping a word and all its forms to a record of the index. The method of tolerant retrieval is improved at preliminary filtration stage thanks to the developed model of an inflectional paradigm and the lexeme index. The experimental efficiency evaluation indicates high precision and 99  0,5 % recall. The information technology of cleaning and integration of data is improved using the developed models and methods. The software which on the basis of the developed models and methods carries out tolerant retrieval, cleaning and integration of data sets was developed. Theoretical and practical results of the thesis are introduced in production of document flow of an entrance committee and educational process of mathematical faculty of the State institution of higher education "Zaporizhzhya National University".en
dc.identifier.citationТодоріко О. О. Моделі та методи очищення та інтеграції текстових даних в інформаційних системах [Електронний ресурс] : дис. ... канд. техн. наук : спец. 05.13.06 / Ольга Олексіївна Тодоріко ; наук. керівник Гоменюк С. І. ; Запорізький нац. ун-т. – Запоріжжя, 2016. – 164 с. – Бібліогр.: с. 147-162. – укр.uk
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/21856
dc.language.isouk
dc.publisherЗапорізький національний університетuk
dc.subjectінтеграція данихuk
dc.subjectочищення данихuk
dc.subjectсхожістьuk
dc.subjectпредставлення словаuk
dc.subjectхеш-функціяuk
dc.subjectсигнатураuk
dc.subjectіндекс пошуковийuk
dc.subjectзіставлення записівuk
dc.subjectдисертаціїuk
dc.subjectcleaning of dataen
dc.subjectintegration of dataen
dc.subjecttolerant retrievalen
dc.subjectrepresentation of wordsen
dc.subjecthashingen
dc.subjectsignatureen
dc.subjectstring similarity measureen
dc.subjectapproximate record matchingen
dc.subjectsearch indexen
dc.subjectrecord linkageen
dc.subject.udc004.912:004.6:004.02(043.3)
dc.titleМоделі та методи очищення та інтеграції текстових даних в інформаційних системахuk
dc.title.alternativeModels and methods of cleaning and integration of text data in information systemsen
dc.typeThesisen
thesis.degree.advisorГоменюк Сергій Івановичuk
thesis.degree.committeeMemberКуценко Олександр Сергійовичuk
thesis.degree.committeeMemberГамаюн Ігор Петровичuk
thesis.degree.committeeMemberСеверин Валерій Петровичuk
thesis.degree.departmentСпеціалізована вчена рада Д 64.050.07uk
thesis.degree.discipline05.13.06 – інформаційні технологіїuk
thesis.degree.grantorНаціональний технічний університет "Харківський політехнічний інститут"uk
thesis.degree.levelкандидатська дисертаціяuk
thesis.degree.nameкандидат технічних наукuk

Файли

Контейнер файлів

Зараз показуємо 1 - 5 з 5
Ескіз
Назва:
titul_dysertatsiia_2016_Todoriko_Modeli_ta_metody.pdf
Розмір:
471.77 KB
Формат:
Adobe Portable Document Format
Опис:
Титульний лист, зміст
Ескіз
Назва:
literatura_dysertatsiia_2016_Todoriko_Modeli_ta_metody.pdf
Розмір:
398.04 KB
Формат:
Adobe Portable Document Format
Опис:
Список використаних джерел
Ескіз
Назва:
vidhuk_Khairova_N_F.pdf
Розмір:
1.49 MB
Формат:
Adobe Portable Document Format
Опис:
Відгук
Ескіз
Назва:
vidhuk_Sharonova_N_V.pdf
Розмір:
1.3 MB
Формат:
Adobe Portable Document Format
Опис:
Відгук
Ескіз
Назва:
vidhuk_Shostak_I_V.pdf
Розмір:
1.83 MB
Формат:
Adobe Portable Document Format
Опис:
Відгук

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
11.23 KB
Формат:
Item-specific license agreed upon to submission
Опис: