Інформаційні технології побудови композитних індикаторів на основі методів машинного навчання

Дисертацiя на здобуття наукового ступеня доктора фiлософiї (PhD) за спецiальнiстю 122 – Комп’ютернi науки. — Нацiональний технiчний унiверситет “Харкiвський полiтехнiчний iнститут”, Харкiв, 2023. У дисертацiйнiй роботi вирiшено науково-практичне завдання розробки методiв та iнформацiйних технологiй побудови композитних iндикаторiв на основi ядерних методiв машинного навчання та оптимального узгодження експертної та статистичної iнформацiї. Об’єкт дослiдження – процеси побудови композитних iндикаторiв у задачах ранжування i багатокритерiального оцiнювання та вибору. Предмет дослiдження – методи та iнформацiйнi технологiї побудови композитних iндикаторiв з на основi оптимального узгодження експертної i статистичної iнформацiї та агрегацiї даних. Мета i задачi дослiдження – розробка методiв та iнформацiйних технологiй побудови композитних iндикаторiв основi ядерних методiв машинного навчання та оптимального узгодження експертної та статистичної iнформацiї з метою пiдвищення точностi отриманих моделей та обмеження їх складностi. У вступi обґрунтовано актуальнiсть теми дисертацiйної роботи, зазначено зв’язок роботи з науковими темами, сформульовано мету, задачi та цiлi дослiдження, визначено об’єкт, предмет та методи дослiдження, показано наукову новизну та практичне значення отриманих результатiв, наведено iнформацiю про практичне використання, особистий внесок здобувача, апробацiю результатiв дослiдження та їх висвiтлення у публiкацiях. Приводяться вiдомостi щодо структури та обсягу дисертацiйної роботи. У першому роздiлi проведено аналiз задачi побудови композитних iндикаторiв та огляд рiзних пiдходiв до їх побудови, зокрема, методiв машинного навчання. Наведено приклади використання композитних iндикаторiв у багатьох сферах для побудови рiзних узагальнених показникiв: людського розвитку, екологiчної ефективностi, iнвестицiйного портфеля тощо. Наведенi приклади використання композитних iндикаторiв в задачах ранжування: рекомендацiйнi системи iнтернет-магазинiв, рекомендацiйнi системи медiаконтенту, пошуковi системи (Google). Проаналiзованi рiзнi пiдходи та алгоритми у навчаннi ранжуванню: точковий, парний та списковий. Розглянуто метрики оцiнки якостi роботи алгоритмiв ранжування, якi використовуються для оцiнювання запропонованих алгоритмiв. Визначено особливостi збору та використання експертно-статистичної iнформацiї для побудови композитних iндикаторiв. Обґрунтовано вибiр мети i задач роботи. У другому роздiлi задача побудови композитного iндикатора сформульована в термiнах машинного навчання, отримано розв’язання задачi побудови нелiнiйної моделi композитного iндикатору на основi ядерної рiджрегресiї. Проаналiзовано методи узгодження рiзнорiдної експертної iнформацiї, що дозволяють знайти компромiс мiж експертними оцiнками композитних iндикаторiв та статистичними оцiнками часткових показникiв. Обґрунтовано запропонований метод оптимального узгодження експертної i статистичної iнформацiї за допомогою регуляризацiї ядерної регресiї з використанням апрiорної iнформацiї щодо важливостi часткових показникiв, що суттєво пiдвищує точнiсть отриманих моделей. У третьому роздiлi наведено принципи концепцiї великих даних та описанi проблеми, якi виникають при збiльшенi обсягiв iнформацiї, що використовується для побудови композитних iндикаторiв. Запропоновано використовувати методи агрегування даних для зменшення складностi ядерної моделi. Розглянуто методи групування та кластеризацiї для агрегацiї даних. Для пiдвищення точностi та ефективностi кластеризацiї запропоновано використовувати регуляризацiю за допомогою цiльової змiнної на етапi розрахунку вiдстанi мiж точками в просторi ознак, викладено запропонований метод регуляризованої кластеризацiї. Визначено проблему недостатньої розмiтки даних, яка особливо часто виникає при збiльшеннi кiлькостi даних. Для розв’язання цiєї проблеми запропоновано використовувати методи напiвкерованого навчання на основi графової регуляризацiї та ядерного трюку пiд час оптимiзацiї нелiнiйної функцiї переваг. Для розв’язання зазначених проблем розроблено двоетапний алгоритм агрегацiї даних, який використовує як глобальнi, так i локальнi патерни у структурi набору пiд час агрегацiї. Такий пiдхiд дозволяє значно скоротити розмiр вибiрки при збереженнi всiх властивостей та шаблонiв. У четвертому роздiлi наведено опис запропонованої iнформацiйної технологiї для побудови композитних iндикаторiв методами машинного навчання, яка реалiзує розробленi у роботi методи та алгоритми. Розроблена iнформацiйна технологiя реалiзована у виглядi бiблiотеки мовою програмування Python з вiдкритим похiдним кодом та наслiдуванням iнтерфейсiв бiблiотеки scikit-learn та вiдповiдає усiм вимогам методологiй розробки проєктiв у сферi машинного навчання та аналiзу даних, а саме KDD та CRISP-DM. Перевiрено працездатнiсть розробленої iнформацiйної технологiї, точнiсть запропонованих алгоритмiв та проаналiзовано отриманi результати дослiдження. Для цього використано декiлька багатомiрних наборiв даних, якi представляють рiзнi доменi областi. Результати показали працездатнiсть та ефективнiсть запропонованих у роботi методiв та алгоритмiв. У висновках наведено основнi результати дисертацiйної роботи щодо вирiшення поставлених наукових задач дослiдження. За результатами дослiдження отримано такi науковi результати: 1. Вперше розроблено метод побудови композитних iндикаторiв з використанням нелiнiйної функцiї переваг, що вiдрiзняється поєднанням ядерних методiв машинного навчання з рiдж-регресiєю та забезпечує можливiсть побудови нелiнiйних моделей; 2. Отримали подальший розвиток методи узгодження експертної i статистичної iнформацiї, вперше запропоновано метод оптимального узгодження з використанням регуляризуючого функцiоналу, що мiстить експертнi оцiнки, що забезпечує пiдвищення точностi отриманих моделей; 3. Вперше розроблено алгоритм двоетапної агрегацiї даних, який використовує iдею пошуку глобальних i локальних патернiв у вибiрцi та регуляризовану кластеризацiю, що дозволяє значно зменшувати розмiр набору даних при збереженнi його властивостей та характеристик та будувати редукованi моделi iндикаторiв; 4. Вперше запропоновано метод регуляризацiї при побудовi нелiнiйних моделей iндикаторiв, який використовує немаркованi експертами спостереження з використанням напiвконтрольованого графового пiдходу у поєднанi з ядерними методами, що забезпечує можливiсть використаня даних з обмеженою експертною iнформацiєю; 5. Вдосконалена iнформацiйна технологiя для побудови композитних iндикаторiв методами машинного навчання, що вiдрiзняється комбiнацiєю пiдходiв, а саме, використанням ядерних методiв машинного навчння, оптимального узгодження експертної та статистичної iнформацiї, агрегацiї даних та напiвкерованого навчання. Результати роботи впроваджено у науково-дослiдних роботах та навчальному процесi кафедри комп’ютерної математики i аналiзу даних Нацональнго політехнiчного унiверситету “Харкiвський політехнiчний iнститут”. Запропонованi методи та iнформацiйна технологiя можуть бути повною мiрою впровадженi в органiзацiях всiх галузей економiки для пiдвищення якостi вибору альтернатив та автоматизацiї процесiв побудови композитних iндикаторiв i ранжування.
The thesis is submitted to obtain a scientific degree of Doctor of Philosophyin the specialty 122 – Computer Sciences. – National Technical University “Kharkiv Polytechnic Institute”, Kharkiv, 2023. The scientific and practical task of developing methods and information technologies for building composite indicators based on kernel methods of machine learning and optimal concordance of expert and statistical information is solved in the dissertation work. Research object – the processes of building composite indicators in the tasks of ranking and multi-criteria evaluation and selection. Research subject – methods and information technologies for building composite indicators based on optimal concordance of expert and statistical information and data aggregation. The purpose and objectives of the research – the development of methods and information technologies for building composite indicators based on kernel methods of machine learning and optimal concordance of expert and statistical information, to increase the accuracy of the obtained models and limit their complexity. The introduction substantiates the relevance of the topic of the dissertation, indicates the connection of the work with scientific topics, formulates the goal, tasks and objectives of the research, defines the object, subject and methods of the research, shows the scientific novelty and practical significance of the obtained results, provides information about practical use, personal contribution of the recipient, the approbation of research results and their coverage in publications. Information on the structure and scope of the dissertation work is given. In the first chapter, an analysis of the task of constructing composite indicators and an overview of various approaches to their construction, in particular, machine learning methods, was carried out. Examples of the use of composite indicators in many areas for the construction of various generalized indicators are given: human development, environmental efficiency, investment portfolio, etc. Examples of the use of composite indicators in ranking tasks are given: recommender systems of online stores, recommender systems of media content, and search engines (Google). Different approaches and algorithms in learning to rank are analyzed: pointwise, pairwise, and listwise. Metrics for evaluating the quality of ranking algorithms, which are used to evaluate the proposed algorithms, are considered. Defined the specifics of the collection and use of expert statistical information for the construction of composite indicators. The choice of the goal and tasks of the work is substantiated. The second chapter formulates the task of constructing a composite indicator in terms of machine learning, and a solution to the task of constructing a nonlinear model of a composite indicator based on kernel ridge regression is obtained. The methods of concordance of disparate expert information, which allow finding a compromise between expert assessments of composite indicators and statistical assessments of partial indicators, are analyzed. The proposed method of optimal concordance of expert and statistical information using kernel regression regularization with the use of a priori information on the importance of partial indicators is justified, which significantly increases the accuracy of the obtained models. The third chapter provides the principles of the concept of big data and describes the problems that arise when the amount of information used to construct composite indicators increases. It is proposed to use data aggregation methods to reduce the complexity of the kernel model. Methods of grouping and clustering for data aggregation are considered. To increase the accuracy and efficiency of clustering, it is proposed to use regularization with the help of a target variable at the stage of calculating the distance between points in the feature space, and the proposed method of regularized clustering is outlined. The problem of insufficient data marking, which especially often arises when the amount of data increases, is identified. To solve this problem, it is proposed to use semi-supervised learning methods based on graph regularization and kernel trick during the optimization of the nonlinear preference function. To solve these problems, a two-stage data aggregation algorithm was developed, which uses both global and local patterns in the set structure during aggregation. This approach allows to significant reduce the size of the sample while preserving all properties and patterns. The fourth chapter describes the proposed information technology for building composite indicators using machine learning methods, which implement the methods and algorithms developed in the work. The developed information technology is implemented in the form of a library in the Python programming language with open-source source code and inherits scikit-learn library interfaces and meets all the requirements of project development methodologies in the field of machine learning and data analysis, namely KDD and CRISP-DM. The functionality of the developed information technology, the accuracy of the proposed algorithms, and the obtained research results were analyzed. For this, several multidimensional data sets representing different domains of the area were used. The results showed the efficiency and effectiveness of the methods and algorithms proposed in the work. In the conclusions, the main results of the dissertation work on the solution of the set scientific research problems are presented. According to the results of the research, the following scientific results were obtained: 1. For the first time, a method of constructing composite indicators using a non-linear preference function was developed, which is characterized by a combination of kernel machine learning methods with ridge regression model and provides the possibility of constructing non-linear models; 2. The methods of concordance of expert and statistical information have received further development, for the first time the method of optimal matching using a regularizing functional containing expert evaluations, which ensures an increase in the accuracy of the obtained models, has been proposed; 3. For the first time, a two-stage data aggregation algorithm was developed, which uses the idea of finding global and local patterns in the sample and regularized clustering, which allows you to significantly reduce the size of the data set while preserving its properties and characteristics and build reduced indicator models; 4. For the first time, a regularization method was proposed for the construction of nonlinear models of indicators, which uses unlabeled observations by experts using a semi-supervised graph approach combined with kernel methods, which provides the possibility of using data with limited expert information; 5. Advanced information technology for building composite indicators using machine learning methods, characterized by a combination of approaches, namely, the use of nuclear machine learning methods, optimal matching of expert and statistical information, data aggregation and semi-supervised learning. The work results are implemented in the research works and educational process of the Department of Computer Mathematics and Data Analysis of the National Technical University “Kharkiv Polytechnic Institute”. The proposed methods and information technology can be fully implemented in organizations of all sectors of the economy to improve the quality of the choice of alternatives and automate the composite indicators building and ranking processes.

Ключові слова

машинне навчання, багатокритеріальна оптимізація, ранжування, композитний індикатор, експертна оцінка, узгодження, агрегація, кластеризація, функція переваг, ядерна функція, регуляризація, порядкова регресія, напівконтрольоване навчання, machine learning, дисертація, multicriteria decision analysis, ranking, composite indicator, expert evaluation, concordance, aggregation, clustering, preference function, kernel function, regularization, ordinal regression, semisupervised learning

Бібліографічний опис

Ямковий К. С. Інформаційні технології побудови композитних індикаторів на основі методів машинного навчання [Електронний ресурс] : дис. ... д-ра філософії : спец. 122 : галузь знань 12 / Клим Сергійович Ямковий ; наук. керівник Любчик Л. М. ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2023. – 119 с. – Бібліогр.: с. 89-102. – укр.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/70192

Зібрання

122 "Комп'ютерні науки"

Повна інформація про документ
Google Scholar

Інформаційні технології побудови композитних індикаторів на основі методів машинного навчання

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Зібрання