122 "Комп'ютерні науки"
Постійне посилання колекціїhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/47370
Переглянути
Документ Інформаційні технології побудови композитних індикаторів на основі методів машинного навчання(2023) Ямковий, Клим СергійовичДисертацiя на здобуття наукового ступеня доктора фiлософiї (PhD) за спецiальнiстю 122 – Комп’ютернi науки. — Нацiональний технiчний унiверситет “Харкiвський полiтехнiчний iнститут”, Харкiв, 2023. У дисертацiйнiй роботi вирiшено науково-практичне завдання розробки методiв та iнформацiйних технологiй побудови композитних iндикаторiв на основi ядерних методiв машинного навчання та оптимального узгодження експертної та статистичної iнформацiї. Об’єкт дослiдження – процеси побудови композитних iндикаторiв у задачах ранжування i багатокритерiального оцiнювання та вибору. Предмет дослiдження – методи та iнформацiйнi технологiї побудови композитних iндикаторiв з на основi оптимального узгодження експертної i статистичної iнформацiї та агрегацiї даних. Мета i задачi дослiдження – розробка методiв та iнформацiйних технологiй побудови композитних iндикаторiв основi ядерних методiв машинного навчання та оптимального узгодження експертної та статистичної iнформацiї з метою пiдвищення точностi отриманих моделей та обмеження їх складностi. У вступi обґрунтовано актуальнiсть теми дисертацiйної роботи, зазначено зв’язок роботи з науковими темами, сформульовано мету, задачi та цiлi дослiдження, визначено об’єкт, предмет та методи дослiдження, показано наукову новизну та практичне значення отриманих результатiв, наведено iнформацiю про практичне використання, особистий внесок здобувача, апробацiю результатiв дослiдження та їх висвiтлення у публiкацiях. Приводяться вiдомостi щодо структури та обсягу дисертацiйної роботи. У першому роздiлi проведено аналiз задачi побудови композитних iндикаторiв та огляд рiзних пiдходiв до їх побудови, зокрема, методiв машинного навчання. Наведено приклади використання композитних iндикаторiв у багатьох сферах для побудови рiзних узагальнених показникiв: людського розвитку, екологiчної ефективностi, iнвестицiйного портфеля тощо. Наведенi приклади використання композитних iндикаторiв в задачах ранжування: рекомендацiйнi системи iнтернет-магазинiв, рекомендацiйнi системи медiаконтенту, пошуковi системи (Google). Проаналiзованi рiзнi пiдходи та алгоритми у навчаннi ранжуванню: точковий, парний та списковий. Розглянуто метрики оцiнки якостi роботи алгоритмiв ранжування, якi використовуються для оцiнювання запропонованих алгоритмiв. Визначено особливостi збору та використання експертно-статистичної iнформацiї для побудови композитних iндикаторiв. Обґрунтовано вибiр мети i задач роботи. У другому роздiлi задача побудови композитного iндикатора сформульована в термiнах машинного навчання, отримано розв’язання задачi побудови нелiнiйної моделi композитного iндикатору на основi ядерної рiджрегресiї. Проаналiзовано методи узгодження рiзнорiдної експертної iнформацiї, що дозволяють знайти компромiс мiж експертними оцiнками композитних iндикаторiв та статистичними оцiнками часткових показникiв. Обґрунтовано запропонований метод оптимального узгодження експертної i статистичної iнформацiї за допомогою регуляризацiї ядерної регресiї з використанням апрiорної iнформацiї щодо важливостi часткових показникiв, що суттєво пiдвищує точнiсть отриманих моделей. У третьому роздiлi наведено принципи концепцiї великих даних та описанi проблеми, якi виникають при збiльшенi обсягiв iнформацiї, що використовується для побудови композитних iндикаторiв. Запропоновано використовувати методи агрегування даних для зменшення складностi ядерної моделi. Розглянуто методи групування та кластеризацiї для агрегацiї даних. Для пiдвищення точностi та ефективностi кластеризацiї запропоновано використовувати регуляризацiю за допомогою цiльової змiнної на етапi розрахунку вiдстанi мiж точками в просторi ознак, викладено запропонований метод регуляризованої кластеризацiї. Визначено проблему недостатньої розмiтки даних, яка особливо часто виникає при збiльшеннi кiлькостi даних. Для розв’язання цiєї проблеми запропоновано використовувати методи напiвкерованого навчання на основi графової регуляризацiї та ядерного трюку пiд час оптимiзацiї нелiнiйної функцiї переваг. Для розв’язання зазначених проблем розроблено двоетапний алгоритм агрегацiї даних, який використовує як глобальнi, так i локальнi патерни у структурi набору пiд час агрегацiї. Такий пiдхiд дозволяє значно скоротити розмiр вибiрки при збереженнi всiх властивостей та шаблонiв. У четвертому роздiлi наведено опис запропонованої iнформацiйної технологiї для побудови композитних iндикаторiв методами машинного навчання, яка реалiзує розробленi у роботi методи та алгоритми. Розроблена iнформацiйна технологiя реалiзована у виглядi бiблiотеки мовою програмування Python з вiдкритим похiдним кодом та наслiдуванням iнтерфейсiв бiблiотеки scikit-learn та вiдповiдає усiм вимогам методологiй розробки проєктiв у сферi машинного навчання та аналiзу даних, а саме KDD та CRISP-DM. Перевiрено працездатнiсть розробленої iнформацiйної технологiї, точнiсть запропонованих алгоритмiв та проаналiзовано отриманi результати дослiдження. Для цього використано декiлька багатомiрних наборiв даних, якi представляють рiзнi доменi областi. Результати показали працездатнiсть та ефективнiсть запропонованих у роботi методiв та алгоритмiв. У висновках наведено основнi результати дисертацiйної роботи щодо вирiшення поставлених наукових задач дослiдження. За результатами дослiдження отримано такi науковi результати: 1. Вперше розроблено метод побудови композитних iндикаторiв з використанням нелiнiйної функцiї переваг, що вiдрiзняється поєднанням ядерних методiв машинного навчання з рiдж-регресiєю та забезпечує можливiсть побудови нелiнiйних моделей; 2. Отримали подальший розвиток методи узгодження експертної i статистичної iнформацiї, вперше запропоновано метод оптимального узгодження з використанням регуляризуючого функцiоналу, що мiстить експертнi оцiнки, що забезпечує пiдвищення точностi отриманих моделей; 3. Вперше розроблено алгоритм двоетапної агрегацiї даних, який використовує iдею пошуку глобальних i локальних патернiв у вибiрцi та регуляризовану кластеризацiю, що дозволяє значно зменшувати розмiр набору даних при збереженнi його властивостей та характеристик та будувати редукованi моделi iндикаторiв; 4. Вперше запропоновано метод регуляризацiї при побудовi нелiнiйних моделей iндикаторiв, який використовує немаркованi експертами спостереження з використанням напiвконтрольованого графового пiдходу у поєднанi з ядерними методами, що забезпечує можливiсть використаня даних з обмеженою експертною iнформацiєю; 5. Вдосконалена iнформацiйна технологiя для побудови композитних iндикаторiв методами машинного навчання, що вiдрiзняється комбiнацiєю пiдходiв, а саме, використанням ядерних методiв машинного навчння, оптимального узгодження експертної та статистичної iнформацiї, агрегацiї даних та напiвкерованого навчання. Результати роботи впроваджено у науково-дослiдних роботах та навчальному процесi кафедри комп’ютерної математики i аналiзу даних Нацональнго політехнiчного унiверситету “Харкiвський політехнiчний iнститут”. Запропонованi методи та iнформацiйна технологiя можуть бути повною мiрою впровадженi в органiзацiях всiх галузей економiки для пiдвищення якостi вибору альтернатив та автоматизацiї процесiв побудови композитних iндикаторiв i ранжування.