Вісник № 02. Нові рішення в сучасних технологіях

Постійне посилання колекціїhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/47553

Переглянути

Результати пошуку

Зараз показуємо 1 - 1 з 1
  • Ескіз
    Документ
    Аналіз даних та машинне навчання на основі даних лабораторії ЦЕРН
    (Національний технічний університет "Харківський політехнічний інститут", 2020) Гигиняк, Віктор Васильович; Хлевний, Андрій Олександрович
    У даній роботі проведено аналіз даних, застосовано та порівняно між собою ряд методів машинного навчання до одного із найбільш важливих за своїм впливом та значенням відкритих датасетів організації ЦЕРН, розміщених на CERN Open Data Portal, який пов’язаний із відкриттям бозону Хіггса. Завдання полягало у вирішенні проблеми бінарної класифікації та розподіленні спостережень на ті, що свідчать про сигнал розпаду частинки та фонові. На першому етапі було проаналізовано вхідні дані, проведено аналіз відсутніх значень. Було відзначено залежність факту відсутності більшості змінних від однієї характеристичної, а також перевірено чи впливає наявність/відсутність на приналежність спостережень до сигналу. Для оцінки та отримання початкових результатів про вплив змінних на результат було розраховано матриці кореляцій. Далі застосовано більш точний та надійний метод розрахунку Predictive Power Score, який є новим та перспективним підходом до визначення залежностей, а саме передбачувальних властивостей змінних. Для подальшого застосування підходів машинного навчання датасет було оброблено та очищено, виявлено та закодовано категоріальні змінні за підходом «one-hot encoding», а також проведено заміну відсутніх значень на розраховані середні по датасету. Після підготовки вхідних даних їх було використано для навчання та валідації ряду моделей. Оскільки проблема полягала в вирішенні питання бінарної класифікації, то до розглянутих моделей ввійшли найбільш поширені методи класифікації, такі як: Decision Tree, Logistic Regression, Bagging, Random Forest, K-Nearest Neighbours, Gradient Bossting, XGB, SVM. До кожного з методів було застосовано пошук гіперпараметрів із використанням 2-фолдної крос-валідації. Серед метрик для оцінки якості та продуктивності моделей було обрано метрики акуратності, точності, чутливості, F-значення та AUC, остання з них була вирішальною, оскільки найбільше підходила до вимог та особливостей класифікації. Найкращими себе показали K-Nearest Neighbours та методи, що базуються на побудові ансамблів із простих класифікаторів, а саме дерев рішень. Також було проведено навчання та валідація моделей на базі нейронних мереж, які хоч і показали досить високі результати, однак через проблематику з перенавчанням виявилися дещо гіршими за методи на основі побудови ансамблів. Найвищі значення спостерігались для Gradient Boosting та XGB, а так як останній є схожим за принципом до першого, але має ряд переваг по швидкості, надійності та продуктивності, то було обрано зупинитися саме на ньому. Після наступного етапу вдосконалення вхідних параметрів моделі, було досягнуто збільшення значень метрик та отримано високі показники передбачувальної здатності. Оскільки XGB базується на побудові ансамблів із простіших предикторів (а в даному випадку дерев рішень), то це дозволило отримати наочне уявлення про алгоритм передбачення. Таким чином наступним кроком було проведено візуалізацію роботи отриманої моделі у вигляді побудови зведеного дерева рішень, а також розраховано F-значення важливості змінних. Отримані результати дозволили провести аналіз впливу кожної із змінних на передбачення сигналу, а також порівняти їх із теоретичними відомостями. Було відмічено більший вплив змінних, отриманих вченими методами розрахунку із теоретичних формул в порівнянні із вхідними змінним, які відповідали неопрацьованим значенням детекторів. Таким чином в результаті роботи було проаналізовано різні підходи та методи машинного навчання, встановлено, що найбільш продуктивними та при цьому легкими в інтерпретації результатів є моделі на базі ансамблю дерев рішень, а також отриманий алгоритм для роботи з експериментальними даними, їх аналізом та використанням у методах машинного навчання.