Аналіз даних та машинне навчання на основі даних лабораторії ЦЕРН
Дата
2020
ORCID
DOI
doi.org/10.20998/2413-4295.2020.02.07
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
У даній роботі проведено аналіз даних, застосовано та порівняно між собою ряд методів машинного навчання до одного із найбільш важливих за своїм впливом та значенням відкритих датасетів організації ЦЕРН, розміщених на CERN Open Data Portal, який пов’язаний із відкриттям бозону Хіггса. Завдання полягало у вирішенні проблеми бінарної класифікації та розподіленні спостережень на ті, що свідчать про сигнал розпаду частинки та фонові. На першому етапі було проаналізовано вхідні дані, проведено аналіз відсутніх значень. Було відзначено залежність факту відсутності більшості змінних від однієї характеристичної, а також перевірено чи впливає наявність/відсутність на приналежність спостережень до сигналу. Для оцінки та отримання початкових результатів про вплив змінних на результат було розраховано матриці кореляцій. Далі застосовано більш точний та надійний метод розрахунку Predictive Power Score, який є новим та перспективним підходом до визначення залежностей, а саме передбачувальних властивостей змінних. Для подальшого застосування підходів машинного навчання датасет було оброблено та очищено, виявлено та закодовано категоріальні змінні за підходом «one-hot encoding», а також проведено заміну відсутніх значень на розраховані середні по датасету. Після підготовки вхідних даних їх було використано для навчання та валідації ряду моделей. Оскільки проблема полягала в вирішенні питання бінарної класифікації, то до розглянутих моделей ввійшли найбільш поширені методи класифікації, такі як: Decision Tree, Logistic Regression, Bagging, Random Forest, K-Nearest Neighbours, Gradient Bossting, XGB, SVM. До кожного з методів було застосовано пошук гіперпараметрів із використанням 2-фолдної крос-валідації. Серед метрик для оцінки якості та продуктивності моделей було обрано метрики акуратності, точності, чутливості, F-значення та AUC, остання з них була вирішальною, оскільки найбільше підходила до вимог та особливостей класифікації. Найкращими себе показали K-Nearest Neighbours та методи, що базуються на побудові ансамблів із простих класифікаторів, а саме дерев рішень. Також було проведено навчання та валідація моделей на базі нейронних мереж, які хоч і показали досить високі результати, однак через проблематику з перенавчанням виявилися дещо гіршими за методи на основі побудови ансамблів. Найвищі значення спостерігались для Gradient Boosting та XGB, а так як останній є схожим за принципом до першого, але має ряд переваг по швидкості, надійності та продуктивності, то було обрано зупинитися саме на ньому. Після наступного етапу вдосконалення вхідних параметрів моделі, було досягнуто збільшення значень метрик та отримано високі показники передбачувальної здатності. Оскільки XGB базується на побудові ансамблів із простіших предикторів (а в даному випадку дерев рішень), то це дозволило отримати наочне уявлення про алгоритм передбачення. Таким чином наступним кроком було проведено візуалізацію роботи отриманої моделі у вигляді побудови зведеного дерева рішень, а також розраховано F-значення важливості змінних. Отримані результати дозволили провести аналіз впливу кожної із змінних на передбачення сигналу, а також порівняти їх із теоретичними відомостями. Було відмічено більший вплив змінних, отриманих вченими методами розрахунку із теоретичних формул в порівнянні із вхідними змінним, які відповідали неопрацьованим значенням детекторів. Таким чином в результаті роботи було проаналізовано різні підходи та методи машинного навчання, встановлено, що найбільш продуктивними та при цьому легкими в інтерпретації результатів є моделі на базі ансамблю дерев рішень, а також отриманий алгоритм для роботи з експериментальними даними, їх аналізом та використанням у методах машинного навчання.
The data from one of the open datasets of CERN, applying and comparing a number of machine learning methods were analyzed. The dataset is hosted on the CERN Open Data Portal and is associated with the discovery of the Higgs boson. It is considered to be one of the most challenging in terms of impact and importance. First of all, the task was to solve the problem of binary classification and the division of observations into the records that indicate the signal of particle decay and background. At the first stage, the input data were analyzed, and the missing values were processed too. The fact of the dependence of most variables on the absence of one characteristic was noted, and it was checked whether the presence/absence affects the affiliation of observations to the signal. Correlation matrices were calculated to evaluate and obtain initial results on the influence of variables on the output. Secondly, a more accurate and reliable method of calculating the Predictive Power Score was used, which is a new and promising approach to determine the dependencies, namely the predictive properties of variables. For further application of machine learning approaches, the dataset was processed and cleaned, categorical variables were identified and coded according to the “one-hot encoding” approach, and the missing values were replaced with the calculated averages of the dataset. After preparing the input data, they were used for training and validation of a number of models. Since the task was to solve the problem of binary classification, the considered models included the most common classification methods, such as: Decision Tree, Logistic Regression, Bagging, Random Forest, K-Nearest Neighbors, Gradient Boosting, XGB, SVM. The search for hyperparameters using 2-fold cross-validation was applied to each of the methods. Among the metrics for assessing the quality and performance of the models, metrics of accuracy, precision, sensitivity, F-value and AUC were chosen, the latter of which was crucial because it best suited the requirements and features of the classification. K-Nearest Neighbors and methods based on building ensembles from simple classifiers, namely decision trees, proved to be the best. Models based on neural networks were also suggested and validated, although they showed quite good results, due to the problem of overfitting turned out to be slightly worse than the methods based on the construction of ensembles. The highest values were observed for Gradient Boosting and XGB, and since the latter is similar in principle to the first one, but has a number of advantages in speed, reliability and performance, it was chosen to focus on. After the next stage of improving the input parameters of the model, an increase in the values of metrics was achieved and high indicators of predictability were obtained. Since XGB is based on building ensembles from simple predictors (and in this case decision trees), this allowed us to get a clear idea of the prediction algorithm. Thus, the next step was to visualize the work of the obtained model in the form of constructing a consolidated decision tree, and also calculate the F-values of the importance of variables. The obtained results allowed us to analyze the influence of each of the variables on the prediction of the signal, as well as to compare them with theoretical information. A greater influence of variables was obtained by scientific methods of calculation from theoretical formulas in comparison with the input variables, which corresponded to the raw values of the detectors. Thus, as a result of the work different approaches and methods of machine learning were analyzed, it was found that the most productive and easy to interpret the results are models based on the ensemble of decision trees, and the algorithm for working with experimental data, their analysis and use in methods of machine learning was established.
The data from one of the open datasets of CERN, applying and comparing a number of machine learning methods were analyzed. The dataset is hosted on the CERN Open Data Portal and is associated with the discovery of the Higgs boson. It is considered to be one of the most challenging in terms of impact and importance. First of all, the task was to solve the problem of binary classification and the division of observations into the records that indicate the signal of particle decay and background. At the first stage, the input data were analyzed, and the missing values were processed too. The fact of the dependence of most variables on the absence of one characteristic was noted, and it was checked whether the presence/absence affects the affiliation of observations to the signal. Correlation matrices were calculated to evaluate and obtain initial results on the influence of variables on the output. Secondly, a more accurate and reliable method of calculating the Predictive Power Score was used, which is a new and promising approach to determine the dependencies, namely the predictive properties of variables. For further application of machine learning approaches, the dataset was processed and cleaned, categorical variables were identified and coded according to the “one-hot encoding” approach, and the missing values were replaced with the calculated averages of the dataset. After preparing the input data, they were used for training and validation of a number of models. Since the task was to solve the problem of binary classification, the considered models included the most common classification methods, such as: Decision Tree, Logistic Regression, Bagging, Random Forest, K-Nearest Neighbors, Gradient Boosting, XGB, SVM. The search for hyperparameters using 2-fold cross-validation was applied to each of the methods. Among the metrics for assessing the quality and performance of the models, metrics of accuracy, precision, sensitivity, F-value and AUC were chosen, the latter of which was crucial because it best suited the requirements and features of the classification. K-Nearest Neighbors and methods based on building ensembles from simple classifiers, namely decision trees, proved to be the best. Models based on neural networks were also suggested and validated, although they showed quite good results, due to the problem of overfitting turned out to be slightly worse than the methods based on the construction of ensembles. The highest values were observed for Gradient Boosting and XGB, and since the latter is similar in principle to the first one, but has a number of advantages in speed, reliability and performance, it was chosen to focus on. After the next stage of improving the input parameters of the model, an increase in the values of metrics was achieved and high indicators of predictability were obtained. Since XGB is based on building ensembles from simple predictors (and in this case decision trees), this allowed us to get a clear idea of the prediction algorithm. Thus, the next step was to visualize the work of the obtained model in the form of constructing a consolidated decision tree, and also calculate the F-values of the importance of variables. The obtained results allowed us to analyze the influence of each of the variables on the prediction of the signal, as well as to compare them with theoretical information. A greater influence of variables was obtained by scientific methods of calculation from theoretical formulas in comparison with the input variables, which corresponded to the raw values of the detectors. Thus, as a result of the work different approaches and methods of machine learning were analyzed, it was found that the most productive and easy to interpret the results are models based on the ensemble of decision trees, and the algorithm for working with experimental data, their analysis and use in methods of machine learning was established.
Опис
Ключові слова
бінарна класифікація, градієнтний бустинг, binary classification, gradient boosting
Бібліографічний опис
Гигиняк В. В. Аналіз даних та машинне навчання на основі даних лабораторії ЦЕРН / В. В. Гигиняк, А. О. Хлевний // Вісник Національного технічного університету "ХПІ". Сер. : Нові рішення в сучасних технологіях = Bulletin of the National Technical University "KhPI". Ser. : New solutions in modern technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2020. – № 2. – С. 53-57.