Інформаційна технологія класифікації впорядкованих масивів даних із фрактальними властивостями методами машинного навчання
Дата
2021
Автори
ORCID
DOI
item.page.thesis.degree.name
кандидат технічних наук
item.page.thesis.degree.level
кандидатська дисертація
item.page.thesis.degree.discipline
05.13.06 – інформаційні технології
item.page.thesis.degree.department
Спеціалізована вчена рада Д 64.050.07
item.page.thesis.degree.grantor
Національний технічний університет "Харківський політехнічний інститут"
item.page.thesis.degree.advisor
Кіріченко Людмила Олегівна
item.page.thesis.degree.committeeMember
Куценко Олександр Сергійович
Гамаюн Ігор Петрович
Дорофєєв Юрій Іванович
Гамаюн Ігор Петрович
Дорофєєв Юрій Іванович
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.06 – "Інформаційні технології". – Міністерство освіти і науки України національний технічний университет "Харківський політехнічний інститут", 2021. Дисертаційна робота присвячена вирішенню задачі класифікації фрактальних упорядкованих масивів даних (УМД) в різноманітних сферах людської діяльності, наприклад в медицині при діагностиці захворювань по енцефалограмам, кардіограмам; при виявленні кризових ситуацій по біржовим індексам; виявлення вторгнень в комп’ютерну мережу та інше.
Метою дисертаційної роботи є підвищення точності класифікації упорядкованих масивів даних із фрактальними властивостями шляхом створення інформаційної технології класифікації методами машинного навчання. Об’єкт дослідження – процес класифікації об’єктів методами машинного навчання.
Предмет дослідження – методи та моделі класифікації фрактальних упорядкованих масивів даних.
Методи дослідження. При вирішенні поставлених задач у роботі використовувався математичний апарат методів машинного навчання; методи математичної статистики – для статистичного аналізу упорядкованих масивів даних, аналізу точності класифікації методами машинного навчання; методи теорії хаоса та фрактального аналізу – для обчислення фрактальних та рекурентних характеристик.
Наукова новизна отриманих результатів полягає у тому, що вперше встановлено наступне: – розроблено інформаційну технологію класифікації фрактальних упорядкованих масивів даних, яка заснована на поєднанні методів дерев рішень та нейронних мереж, враховує самоподібні та мультифрактальні властивості упорядкованих даних, що дозволяє збільшити точність класифікації; – запропоновано метод оцінювання показника Херста за значеннями часового ряду, який засновано на застосуванні класифікаційних методів машинного навчання, що дозволяє суттєво зменшити довірчий інтервал оцінки;
– застосовані рекурентні характеристики часових рядів, як ознаки для класифікації часових рядів на основі їхніх фрактальних властивостей методами машинного навчання, дозволили збільшити точність класифікації. Подальший розвиток отримали: – метод генерації фрактальних реалізацій на основі стохастичного мультиплікативного біноміального каскаду, який на відміну від існуючих використовує аналітичне визначення параметрів несиметричного бета-розподілу, що дозволяє генерувати упорядковані масиви даних із заданими мультифрактальними властивостями; – методи бінарної класифікації часових рядів з фрактальними властивостями, що засновані на використанні дерев прийняття рішень та нейронних мереж, які на відміну від існуючих використовують як ознаки фрактальні та рекурентні характеристики, що дозволяє збільшити точність класифікації. Практичне значення отриманих результатів полягає у тому, що в результаті виконаного дисертаційного дослідження створено комплекс методів, алгоритмів і програм, які дозволяють вирішити завдання класифікації фрактальних упорядкованих масивів даних. Усі теоретичні розробки дисертації доведені автором до конкретних методів і покладені в основу функціонування інформаційної технології класифікації впорядкованих масивів даних із фрактальними властивостями методами машинного навчання. Запропонований метод оцінювання показника Херста, який програмно реалізований, дозволяє покращити точність його оцінювання за упорядкованими даними, а саме: зменшує довірчий інтервал оцінки в декілька разів. Проведений у роботі аналіз існуючих методів класифікації упорядкованих масивів даних показав: незважаючи на те, що застосування машинного навчання в задачах аналізу фрактальних даних постійно зростає, на сьогоднішній, день не розроблено інформаційної технології, яка призначена для задач класифікації фрактальних масивів даних, зокрема часових рядів. У роботі виконано огляд існуючих методів генерування фрактальних та мультифрактальних упорядкованих масивів даних. Доведена необхідність удосконалення таких методів, та запропоновано підхід до генерації стохастичного мультиплікативного біноміального каскаду на основі вирішення задачі нелінійної оптимізації. Розв’язання цієї задачі дозволяє використовувати несиметричний бета-розподіл для генерації стохастичного мультиплікативного біноміального каскаду, що дозволило охопити широкий спектр мультифрактальних властивостей. Використання удосконаленого методу генерації стохастичного мультиплікативного біноміального каскаду дає змогу генерувати більш складні у фрактальному сенсі реалізації мультифрактального броунівського руху. Проведено чисельні експерименти класифікації різних типів упорядкованих масивів даних, які були розбиті на класи за їхніми фрактальними властивостями. Були застосовані наступні методи класифікації: дерева прийняття рішень, bagging, випадковий ліс, багатошаровий персептрон, мережі довгої короткострокової пам’яті. Дослідження показали, що діапазон мультифрактальних і самоподібних властивостей відіграє важливу роль для вибору класифікатора, і відповідно на точність класифікації. Було доведено що використання статистичних та фрактальних характеристик мультифрактальних упорядкованих масивів даних дозволяє покращиті точність класифікації УМД порівняно з використанням значень УМД як ознак при класифікації. Розглянуто рекурентні діаграми та запропоновано використання їх характеристик в якості ознак при навчанні моделей класифікації. Дослідження показали що характеристики рекурентних діаграм дають суттєвий внесок в точність класифікації, та дозволяють класифікувати УМД з монофрактальними властивостями. Розроблена інформаційна технологія класифікації УМД, котра дозволяє підібрати оптимальний метод машинного навчання для класифікації досліджуваного упорядкованого масиву даних. Запропоновано використання розробленої інформаційної технології для визначення показника Херста УМД. Експериментально доведено ефективність використання методів машинного навчання для визначення показника Херста та його довірчого інтервалу, та дозволило скоротити довірчий інтервал показника Херста для фрактальних та мультифрактальних УМД більше ніж у 2 рази. Приведено результати застосування запропонованої інформаційної технології для виявлення DDoS-атак в комп’ютерній мережі. ІТ збільшує кількість виявлених атак, що дозволяє використовувати запропоновану ІТ як додатковий фільтр при виявленні DDoS-атак. Запропоновані у роботі моделі, методи та інформаційна технологія класифікації фрактальних даних були впроваджені у діяльність підприємств різних галузей економіки:
– для підприємства ПрАт «Фарлеп-Інвест» (м. Харків) впроваджено розроблену інформаційну технологію для зменшення негативного впливу кібер-атак на інформаційні системи підприємства; – для підприємства КБ «ПриватБанк» (м. Харків) впроваджено розроблену інформаційну технологію для виявлення вторгнень в інформаційні системи підприємства. Результати дисертаційного дослідження впроваджені у навчальному процесі Харківському національному університеті радіоелектроніки на кафедрі інфокомунікаційної інженерії при викладанні навчальної дисципліни "Artificial Intelligence (Штучний інтелект)".
Thesis for the degree of candidate of technical sciences in specialty 05.13.06 – information technologies. – National Technical University "Kharkiv Polytechnic Institute", Kharkiv, 2021. The thesis is devoted to the problem of classification of fractal ordered data sets (ODS) in various spheres of human activity, for example in medicine at diagnosis of diseases on encephalograms, cardiograms; when identifying crisis situations on stock exchange indices; to detect computer network intrusions and more. The purpose of the thesis is to increase the classification accuracy of ordered data sets with fractal properties by creating information technology of classification by machine learning methods. The object of research is the process of classifying objects by machine learning methods. The subject of research - methods and models of classification for fractal ordered data sets. Research methods. When solving the tasks, the following methods were used: mathematical apparatus of machine learning; methods of mathematical statistics for statistical analysis of ordered data sets and analysis of classification accuracy using machine learning; methods of chaos theory and fractal analysis for calculating fractal and recurrenсe characteristics.. The scientific novelty of the obtained results is that for the first time the following was established: - developed information technology for classification of fractal ordered data sets, which is based on a combination of decision tree methods and neural networks, takes into account self-similar and multifractal properties of ordered data, which increases the accuracy of classification; - a method of estimating the Hurst exponent according to the values of the time series is proposed, which is based on the application of classification methods of machine learning, which allows to significantly reduce the confidence interval of evaluation; - applied recurrence characteristics of time series, as features for the classification of time series based on their fractal properties by machine learning methods, allowed to increase the accuracy of classification. Further development was received by: - a method of generating fractal realizations based on a stochastic multiplicative binomial cascade, which, unlike the existing ones, uses analytical determination of asymmetric beta distribution parameters, which allows to generate ordered data arrays with given multifractal properties; - methods of binary classification of time series with fractal properties, based on the use of decision trees and neural networks, which, unlike the existing ones, use fractal and recurrence characteristics as features, which allows to increase the accuracy of classification. The practical significance of the obtained results is that as a result of the thesis research a set of methods, algorithms and programs was created, which allow to solve the problem of classification of fractal ordered data sets. All theoretical developments of the thesis are brought by the author to concrete methods and are put in a basis of functioning of information technology of classification of the ordered data sets with fractal properties by methods of machine learning. The proposed method of estimating the Hurst exponent, which is implemented in software, allows to improve the accuracy of its estimation according to ordered data, namely: reduces the confidence interval of the estimation several times. The analysis of existing methods of classification of ordered data sets showed that, despite the fact that the use of machine learning in fractal data analysis is constantly growing, to date, no information technology has been developed for the classification of fractal data sets, including time series. The thesis reviews the existing methods of generating fractal and multifractal ordered data sets. The necessity of improvement of such methods is proved, and the approach to generation of a stochastic multiplicative binomial cascade on the basis of the decision of a problem of nonlinear optimization is offered. Solving this problem allows the use of an asymmetric beta distribution to generate a stochastic multiplicative binomial cascade, which allows us to cover a wide range of multifractal properties. The use of an advanced method for generating a stochastic multiplicative binomial cascade makes it possible to generate more complex fractal realizations of multifractal Brownian motion. Numerical experiments on the classification of different types of ordered data sets, which were divided into classes according to their fractal properties, were performed. The following classification methods were used: decision trees, bagging, random forest, multilayer perceptron, long-term short-term memory networks. Studies have shown that the range of multifractal and self-similar properties plays an important role in the choice of classifier, and accordingly on the accuracy of classification. It was proved that the use of statistical and fractal characteristics of multifractal ordered data sets improves the accuracy of ODS classification compared to the use of ODS values as features in the classification. Recurrence plots are considered and the use of their characteristics as features in the training of classification models is proposed. Studies have shown that the characteristics of recurrence plots make a significant contribution to the accuracy of classification, and allow to classify ODS with monofractal properties. The information technology of ODS classification is developed, which allows to choose the optimal method of machine learning for the classification of the studied ordered data set. The use of the developed information technology for determination of the Hurst exponent of ODS is offered. The effectiveness of using machine learning methods to determine the Hurst exponent and its confidence interval has been experimentally proven, and it has allowed to reduce the confidence interval of the Hurst exponent for fractal and multifractal ODS more than 2 times. The results of the application of the proposed information technology to detect DDoS attacks in a computer network are presented. IT increases the number of detected attacks, which allows you to use the proposed IT as an additional filter in detecting DDoS attacks. The models, methods and information technology of fractal data classification proposed in the thesis were introduced into the activity of enterprises of different branches of economy: – for the enterprise PrJSC "Farlep-Invest" (Kharkiv) the developed information technology for reduction of negative influence of cyber-attacks on information systems of the enterprise is introduced; – for the enterprise CB "PrivatBank" (Kharkiv) the developed information technology for detection of intrusions into information systems of the enterprise is introduced. The results of the dissertation research were introduced in the educational process of Kharkiv National University of Radio Electronics at the Department of Infocommunication Engineering in the teaching of the discipline "Artificial Intelligence (Artificial Intelligence)".
Thesis for the degree of candidate of technical sciences in specialty 05.13.06 – information technologies. – National Technical University "Kharkiv Polytechnic Institute", Kharkiv, 2021. The thesis is devoted to the problem of classification of fractal ordered data sets (ODS) in various spheres of human activity, for example in medicine at diagnosis of diseases on encephalograms, cardiograms; when identifying crisis situations on stock exchange indices; to detect computer network intrusions and more. The purpose of the thesis is to increase the classification accuracy of ordered data sets with fractal properties by creating information technology of classification by machine learning methods. The object of research is the process of classifying objects by machine learning methods. The subject of research - methods and models of classification for fractal ordered data sets. Research methods. When solving the tasks, the following methods were used: mathematical apparatus of machine learning; methods of mathematical statistics for statistical analysis of ordered data sets and analysis of classification accuracy using machine learning; methods of chaos theory and fractal analysis for calculating fractal and recurrenсe characteristics.. The scientific novelty of the obtained results is that for the first time the following was established: - developed information technology for classification of fractal ordered data sets, which is based on a combination of decision tree methods and neural networks, takes into account self-similar and multifractal properties of ordered data, which increases the accuracy of classification; - a method of estimating the Hurst exponent according to the values of the time series is proposed, which is based on the application of classification methods of machine learning, which allows to significantly reduce the confidence interval of evaluation; - applied recurrence characteristics of time series, as features for the classification of time series based on their fractal properties by machine learning methods, allowed to increase the accuracy of classification. Further development was received by: - a method of generating fractal realizations based on a stochastic multiplicative binomial cascade, which, unlike the existing ones, uses analytical determination of asymmetric beta distribution parameters, which allows to generate ordered data arrays with given multifractal properties; - methods of binary classification of time series with fractal properties, based on the use of decision trees and neural networks, which, unlike the existing ones, use fractal and recurrence characteristics as features, which allows to increase the accuracy of classification. The practical significance of the obtained results is that as a result of the thesis research a set of methods, algorithms and programs was created, which allow to solve the problem of classification of fractal ordered data sets. All theoretical developments of the thesis are brought by the author to concrete methods and are put in a basis of functioning of information technology of classification of the ordered data sets with fractal properties by methods of machine learning. The proposed method of estimating the Hurst exponent, which is implemented in software, allows to improve the accuracy of its estimation according to ordered data, namely: reduces the confidence interval of the estimation several times. The analysis of existing methods of classification of ordered data sets showed that, despite the fact that the use of machine learning in fractal data analysis is constantly growing, to date, no information technology has been developed for the classification of fractal data sets, including time series. The thesis reviews the existing methods of generating fractal and multifractal ordered data sets. The necessity of improvement of such methods is proved, and the approach to generation of a stochastic multiplicative binomial cascade on the basis of the decision of a problem of nonlinear optimization is offered. Solving this problem allows the use of an asymmetric beta distribution to generate a stochastic multiplicative binomial cascade, which allows us to cover a wide range of multifractal properties. The use of an advanced method for generating a stochastic multiplicative binomial cascade makes it possible to generate more complex fractal realizations of multifractal Brownian motion. Numerical experiments on the classification of different types of ordered data sets, which were divided into classes according to their fractal properties, were performed. The following classification methods were used: decision trees, bagging, random forest, multilayer perceptron, long-term short-term memory networks. Studies have shown that the range of multifractal and self-similar properties plays an important role in the choice of classifier, and accordingly on the accuracy of classification. It was proved that the use of statistical and fractal characteristics of multifractal ordered data sets improves the accuracy of ODS classification compared to the use of ODS values as features in the classification. Recurrence plots are considered and the use of their characteristics as features in the training of classification models is proposed. Studies have shown that the characteristics of recurrence plots make a significant contribution to the accuracy of classification, and allow to classify ODS with monofractal properties. The information technology of ODS classification is developed, which allows to choose the optimal method of machine learning for the classification of the studied ordered data set. The use of the developed information technology for determination of the Hurst exponent of ODS is offered. The effectiveness of using machine learning methods to determine the Hurst exponent and its confidence interval has been experimentally proven, and it has allowed to reduce the confidence interval of the Hurst exponent for fractal and multifractal ODS more than 2 times. The results of the application of the proposed information technology to detect DDoS attacks in a computer network are presented. IT increases the number of detected attacks, which allows you to use the proposed IT as an additional filter in detecting DDoS attacks. The models, methods and information technology of fractal data classification proposed in the thesis were introduced into the activity of enterprises of different branches of economy: – for the enterprise PrJSC "Farlep-Invest" (Kharkiv) the developed information technology for reduction of negative influence of cyber-attacks on information systems of the enterprise is introduced; – for the enterprise CB "PrivatBank" (Kharkiv) the developed information technology for detection of intrusions into information systems of the enterprise is introduced. The results of the dissertation research were introduced in the educational process of Kharkiv National University of Radio Electronics at the Department of Infocommunication Engineering in the teaching of the discipline "Artificial Intelligence (Artificial Intelligence)".
Опис
Ключові слова
дисертація, класифікація, інформаційна технологія, машинне навчання, рекурентна діаграма, мультифрактальний процес, випадковий ліс, нейронна мережа, мультифрактальний аналіз, classification, information technology, machine learning, recurrent diagrams, multifractal processes, random forest, neural networks, multifractal analysis
Бібліографічний опис
Булах В. А. Інформаційна технологія класифікації впорядкованих масивів даних із фрактальними властивостями методами машинного навчання [Електронний ресурс] : дис. ... канд. техн. наук : спец. 05.13.06 : галузь знань 12 / Віталій Анатолійович Булах ; наук. керівник Кіріченко Л. О. ; Харків. нац. ун-т радіоелектроніки ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2021. – 127 с. – Бібліогр.: с. 104-118. – укр.