Ансамблевий метод ідентифікації стану комп'ютерних систем
Дата
2024
ORCID
DOI
Науковий ступінь
доктор філософії
Рівень дисертації
Шифр та назва спеціальності
123 – Комп’ютерна інженерія
Рада захисту
Разова спеціалізована рада ДФ 64.050.138
Установа захисту
Національний технічний університет "Харківський політехнічний інститут"
Науковий керівник
Гавриленко Світлана Юріївна
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
Дисертаційна робота присвячена вирішенню актуальної науково- прикладної задачі вдосконалення, розробки та впровадження методів ідентифікацій стану комп’ютерних систем з метою покращення їх ефективності за рахунок використання ансамблевих методів машинного навчання.
Метою дисертаційної роботи є підвищення якості ідентифікації стану комп’ютерних систем шляхом розробки та удосконалення методів розпізнавання аномалій та зловживань.
Об’єкт дослідження – процес виявлення вторгнень у комп’ютерні системи в умовах зовнішніх впливів. Предмет дослідження – методи ідентифікації стану комп’ютерних систем на основі технології машинного навчання з використанням ансамблевих мета- алгоритмів.
У вступі обґрунтовано актуальність вдосконалення методів ідентифікації стану комп’ютерних систем, наведено зв’язок роботи з науковими програмами, планами і темами, представлено мету і задачі дослідження, розглянуто об’єкт, предмет та методи дослідження, наведено наукову новизну та практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача, а також представлено перелік публікацій за темою дисертації.
У першому розділі проведено огляд основних факторів ризику при експлуатації комп’ютерних систем. Досліджено основні види загроз, що впливають на функціонування комп’ютерних систем. Розглянуто поняття системи виявлення вторгнень, а також процесів виявлення аномалій та зловживань. Проведено аналітичний огляд існуючих методів ідентифікації стану комп'ютерної системи та їх обмежень. Обґрунтовано вибір ансамблевих методів для вирішення задачі ідентифікації стану комп’ютерної системи. Виконано постановку науково-технічної задачі дослідження та сформульовані основні завдання.
У другому розділі проведено дослідження особливостей використання беггінг-ансамблів у задачах ідентифікації стану комп’ютерних систем. Обґрунтовано вибір етапів та методів попередньої обробки даних. Особливу увагу приділено процесу виявлення аномалій та зменшення кореляції ознак за допомогою методів машинного навчання. Досліджено різні підходи до формування підвибірок вхідних даних, а також особливості процесу налаштування та навчання базових класифікаторів. Проаналізовано показники якості роботи ансамблів. Розроблено метод ідентифікації стану комп’ютерних систем, що включає процедуру попередньої обробки, яка сфокусована на видаленні аномальних даних та зменшенні статистичної залежності між ознаками, та побудову беггінг-класифікатора з налаштуванням гіперпараметрів. Розроблено програмне забезпечення для навчання та оцінки ефективності класифікаційної моделі. Виявлено, що запропонований метод дозволяє підвищити якість ідентифікації стану комп’ютерної системи за умови наявності шумів та аномалій у вхідних даних.
У третьому розділі досліджено підходи об’єднання моделей у беггінг- ансамблі та напрямки їх вдосконалення. Розглянуто особливості використання нейронних мереж у якості базових моделей беггінг-ансамблю. Проаналізовано різні підходи до виконання зваженого голосування зі статичними та динамічними вагами, а також різні варіанти показників якості, які можна використовувати для розрахунку вагових коефіцієнтів. Проаналізовано основні напрямки використання техніки калібрування впевненості, а також адаптації за рахунок використання мета-ознак та мета-навчання. Досліджено методи ансамблевої обрізки з використанням різних показників якості, а також на основі двох підходів, які включали фільтрацію моделей за абсолютними значеннями цих показників і фільтрацію моделей за відстанню значення цих показників від середнього значення. Розроблено програмну модель беггінг-ансамблю на основі багатошарового перцептрона, виконано її налаштування та оцінку якості. У четвертому розділі розглянуто основні поняття, переваги та недоліки гомогенних і гетерогенних ансамблів, а також обґрунтовано вибір базових моделей гетерогенного беггінг-ансамблю та показників, які можуть враховуватися при відборі моделей. Запропонована триетапна процедура побудови гетерогенного ансамблю. За допомогою розробленого програмного забезпечення сформовано класифікатори з різними комбінаціями базових моделей у їх складі, а також виконано експериментальне дослідження ефективності їх роботи. У висновках наведено результати вирішення поставлених наукових задач та сформульовано особливості дослідження розроблених методів.
За результатами дослідження отримано такі наукові результати:
1. Отримав подальший розвиток метод ідентифікації стану комп’ютерної системи на основі дерев рішень та мета-алгоритму беггінг за рахунок вибору оптимальних гіперпараметрів налаштування класифікатора та використання процедури попередньої обробки даних, яка сфокусована на видаленні аномальних даних та зменшенні статистичної залежності між ознаками, що дозволило підвищити якість ідентифікації стану КС.
2. Отримав подальший розвиток ансамблевий метод ідентифікації стану комп’ютерної системи завдяки використанню багатошарового перцептрону у якості базової моделі ансамблю та вибору оптимальних гіперпараметрів налаштування класифікатора, що дозволило підвищити якість його функціонування.
3. Удосконалено ансамблевий метод ідентифікації стану комп'ютерної системи на основі гомогенного мета-алгоритму беггінг за рахунок розробки спеціальної процедури зменшення кількості базових класифікаторів та їх ранжування під час зваженого голосування, що дозволило зменшити час роботи ансамблю та підвищити якість класифікації стану КС.
4. Вперше запропоновано метод ідентифікації стану комп'ютерної системи, який відрізняється від відомих методів використанням гетерогенного мета-алгоритму беггінг та включає триетапний процес підбору базових моделей класифікатора на основі технології Pasting, що дозволило підвищити ефективність ідентифікації стану КС. Практичне значення отриманих результатів полягає в наступному: − сформовано програмну модель попередньої обробки даних, яка сфокусована на видаленні аномальних даних та зменшенні статистичної залежності між ознаками, що дозволяє збільшити швидкість розпізнавання до 1,62 разів, зменшити час навчання моделі до 24,76 разів, а також підвищити якість класифікації; − розроблено метод ідентифікації стану комп’ютерної системи, який включає сформовану процедуру попередньої обробки даних, процес вибору алгоритму формування вхідних даних та побудову беггінг-класифікатора з налаштуванням його гіперпараметрів, що дозволило підвищити якість класифікації: значення AUC-ROC класифікатору на навчальній вибірці зростає на 11%, а на тестовій вибірці – на 3%; − реалізовано програмну модель ансамблевого класифікатору на основі багатошарового перцептрону у якості базового класифікатора та процедури підбору оптимальних налаштувань його параметрів, а саме: алгоритм формування вибірок даних, кількості базових класифікаторів, функцію оптимізації ваг нейронних мереж, розмірів першого та другого прихованих шарів та функцію активації, що дозволило підвищити значення точності класифікації на 4,67%; − розроблено програмне забезпечення, яке виконує обрізку ансамблю на основі максимізації абсолютної точності базових класифікаторів та класифікує за допомогою зваженого голосування з використанням вагових коефіцієнтів на основі функції логарифмічних втрат, що дозволило підвищити показники якості класифікації беггінг-ансамблю, а саме значення метрики F1- Score – на 2,4%; − запропоновано метод формування гетерогенного ансамблю, який включає відбір базових класифікаторів, навчання на їх основі однорідних беггінг- ансамблів, створення комбінаційних груп (пулів) із базових класифікаторів та формування гетерогенного ансамблю за допомогою процедури Pasting, що дозволило підвищити якість класифікації, а саме збільшити показник F1-Score моделі при роботі на тестових даних на 9,5% у порівнянні зі стандартним однорідним беггінг-ансамблем на основі дерев рішень та на 2% у порівнянні з максимальним значенням серед однорідних ансамблів; − результати роботи впроваджено у вигляді програмного забезпечення, яке використовується в системах моніторингу стану комп’ютерних систем та захисту інформації підприємства ТОВ «Передові цифрові рішення» (Україна), а також впроваджено в навчальний процес кафедри комп’ютерної інженерії та програмування НТУ «ХПІ» (м. Харків) при викладанні навчальних дисциплін. За результатами дослідження підтверджено теоретичну та практичну цінність, проведено дослідження їх ефективності та сформовано практичні рекомендації, щодо їх застосування.
The dissertation work is devoted to the solution of the actual scientific and applied problem of improvement, development and implementation of methods for identifying the state of computer systems with the aim of improving their efficiency due to the use of ensemble methods of machine learning.
The purpose of the dissertation is to improve the quality of identification of the state of computer systems by developing and improving methods for recognizing anomalies and abuses. The object of research is the process of detecting intrusions into computer systems under conditions of external influences.
The subject of research is methods of identifying the state of computer systems based on machine learning technology using ensemble meta-algorithms. The introduction substantiates the relevance of improving the methods of identifying the state of computer systems, the connection of the work with scientific programs, plans and topics is presented, the purpose and tasks of the research are presented, the object, subject and methods of the research are considered. The scientific novelty, practical significance of the obtained results and information on the personal contribution are given. The introduction also presents a list of publications on the topic of the dissertation. The first chapter provides an overview of the main risk factors in the operation of computer systems. The main types of threats affecting the functioning of computer systems have been studied. The concept of an intrusion detection system, as well as anomaly and abuse detection processes, is considered. An analytical review of the existing methods of identifying the state of the computer system and their limitations was carried out. The choice of ensemble methods for solving the problem of identifying the state of the computer system is substantiated. The formulation of the scientific and technical task of the research was carried out and the main tasks were formulated. In the second chapter, a study of the features of bagging ensemble usage in the task of identifying the state of computer systems is carried out. The choice of stages and methods of data preprocessing is justified. Particular attention is paid to the process of detecting anomalies and reducing the correlation of features using machine learning methods. Various approaches that allow forming subsamples of input data have been studied, as well as the specifics of training and setting up basic classifiers, have been studied. The performance quality indicators of the ensembles were analyzed. A method for identifying the state of computer systems has been developed, which includes a preprocessing procedure focused on removing anomalous data and reducing the correlation of features, and building a begging classifier with selection of hyperparameters. Software for training and evaluating the effectiveness of the classification model has been developed. It was found that the proposed method allows to improve the quality of identification of the state of the computer system in the presence of noise and anomalies in the input data. The third chapter explores the approaches of combining models in the bagging ensemble and directions for their improvement. Specifics of using neural networks as basic models of the begging ensemble are considered. Different approaches to perform weighted voting with static and dynamic weights are analyzed, as well as different options of quality indicators that can be used to calculate weighting coefficients. The main directions of using the confidence calibration technique, as well as adaptation due to the use of meta-features and meta-learning, are considered. Ensemble pruning methods using various quality indicators were studied. Two approaches were investigated: filtering models by the absolute values of these indicators and filtering models by the distance of the value of these indicators from the average value. A software model of the begging ensemble based on a multilayer perceptron was developed, its settings and quality assessment were investigated. The fourth chapter explores the main concepts, advantages and disadvantages of homogeneous and heterogeneous ensembles, as well as substantiates the choice of basic models of the heterogeneous bagging ensemble and indicators that can be taken into account when selecting models. A three-stage procedure for building a heterogeneous ensemble is proposed. With the help of the developed software, classifiers with various combinations of basic models in their composition were formed, and an experimental study of the effectiveness of their work was also performed.
The results of solving the scientific problems are presented in the conclusions. The peculiarities of the research of the developed methods are formulated. The following scientific results were obtained within this area:
1. The computer system state identification method based on decision trees and the bagging meta-algorithm was further developed due to the selection of optimal hyperparameters of the classifier setting and the use of a data pre-processing procedure, which is focused on removing anomalous data and reducing the statistical dependence between features, which allowed to improve the quality of state identification computer systems.
2. The ensemble method of identifying the state of the computer system was further developed due to the use of a multilayer perceptron as the basic model of the ensemble and the selection of optimal hyperparameters for the classifier setting, which made it possible to improve the quality of its functioning.
3. The ensemble method for identifying the state of a computer system based on the homogeneous meta-algorithm of bagging has been improved by developing a special procedure for reducing the number of basic classifiers and their ranking during weighted voting, which made it possible to reduce the time of the ensemble and improve the quality of classification of the state of the CS.
4. For the first time, the method for identifying the state of a computer system was proposed, which differs from known methods by using a heterogeneous bagging meta-algorithm and includes a three-stage process for selecting basic classification models based on the Pasting technology, which made it possible to increase the efficiency of identifying the state of the computer system. The practical significance of the obtained results includes the following achievements: − a software model for data pre-processingfocused on removing anomalous data and reducing the correlation of features was formed, which allows to increase the recognition speed up to 1.62 times, reduce the training time up to 24.76 times, and also improve the quality of their classification; − a method for identifying the state of the computer system was developed, which includes the established data preprocessing procedure, the process of selecting the input data generation algorithm, and the construction of a bagging classifier with the adjustment of its hyperparameters, which made it possible to improve the quality of classification: the AUC-ROC value of the classifier on the training sample increases by 11% , and on the test sample – by 3%; − the software model of an ensemble classifier based on a multilayer perceptron as a basic classifier and a procedure for selecting the optimal settings of its parameters (the algorithm for forming data samples, the number of basic classifiers, the function of optimizing the weights of neural networks, the sizes of the first and second hidden layers, and the activation function) has been implemented, which made it possible to increase the value of classification accuracy by 4.67%; − the software that performs ensemble pruning based on the maximization of the absolute accuracy of the base classifiers and classification using weighted voting using weights based on the logarithmic loss function was developed, which allowed to improve the quality indicators of the begging ensemble classification, namely the value of the F1-Score metric up to 2.4%; − the method for forming a heterogeneous ensemble, which includes the selection of basic classifiers, learning homogeneous bagging ensembles based on them, creating combination groups (pools) from basic classifiers and forming a heterogeneous ensemble using the Pasting procedure was developed, which made it possible to improve the quality of classification, namely to increase the F1-Score of models when working on test data by 9.5% compared to the standard homogeneous begging ensemble based on decision trees and by 2% compared to the maximum value among homogeneous ensembles; − the results of the work were implemented in the form of software that is used in the systems for monitoring the state of computer systems and protecting information of the enterprise "Advanced Digital Solutions" LLC (Ukraine), as well as implemented in the educational process of the Department of Computer Engineering and Programming of NTU "KhPI" (Kharkiv) when teaching academic subjects. According to the results of the research, the theoretical and practical value was confirmed, a study of their effectiveness was conducted and practical recommendations were formed regarding their application.
Опис
Ключові слова
комп'ютерна система, виявлення вторгнень, ідентифікація аномального стану, вирішальне правило, нечітка логіка, машинне навчання, шум та новизна в даних, попередня обробка даних, ансамблевий беггінг-класифікатор, дерево прийняття рішень,, штучна нейронна мережа, метод опорних векторів, метод k-найближчих сусідів,, наївний баєсів класифікатор, computer system, intrusion detection, anomaly state identification, decision rule, fuzzy logic, machine learning, noise and novelty in data, data preprocessing, ensemble bagging classifier, decision tree, artificial neural network, support vector machine, k-nearest neighbors algorithm, naive Bayesian classifier
Бібліографічний опис
Горносталь О. А. Ансамблевий метод ідентифікації стану комп'ютерних систем [Електронний ресурс] : дис. ... д-ра філософії : спец. 123 : галузь знань 12 / Олексій Андрійович Горносталь ; наук. керівник Гавриленко С. Ю.; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2024. – 170 с.