Методи та засоби захисту інформації в комп'ютерних системах та мережах

dc.contributor.authorЧелак, Віктор Володимировичuk
dc.date.accessioned2023-09-15T17:56:05Z
dc.date.available2023-09-15T17:56:05Z
dc.date.issued2023
dc.description.abstractДисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 123 – Комп’ютерна інженерія. – Національний технічний університет “Харківський політехнічний інститут”, Харків, 2023. Дисертаційна робота присвячена вирішенню актуальної науково-прикладної задачі, пов'язаної з розробкою та подальшим удосконалення методів та засобів ідентифікації стану комп'ютерних систем та мереж для захисту даних в умовах зовнішніх впливів. Метою дисертаційної роботи є розробка нових та удосконалення існуючих методів виявлення аномалій, загроз і шкідливого програмного забезпечення для підвищення точності та швидкості ідентифікації стану комп’ютерних систем та мереж на основі технології машинного навчання. Об’єкт дослідження – процес захисту даних в комп’ютерних системах та мережах в умовах зовнішніх впливів. Предмет дослідження – методи та засоби ідентифікації стану комп’ютерних систем та мереж на основі технології машинного навчання. У вступі обґрунтовано актуальність захисту інформації в комп’ютерних системах та мережах, представлено зв’язок роботи з науковими програмами, планами і темами, наведено наукову новизну, представлено практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача, представлено перелік публікацій за темою дисертації. У першому розділі виконано постановку науково-технічної проблеми захисту даних в комп’ютерних системах та мережах. Досліджено основні загрози та фактори, які впливають на функціонування комп’ютерних систем та мереж з метою захисту даних. Досліджено загальну структуру антивірусних програм. Виявлені особливості брандмауерів, систем запобігання і виявлення вторгнень. Проведено дослідження та порівняльний аналіз методів виявлення вторгнень, виділено перспективні напрямки дослідження. Вказано на доцільність удосконалення існуючих та розробку нових методів ідентифікації стану комп’ютерних систем, особливо за умови вихідних даних, що мають високі кореляційні коефіцієнти або знаходяться на межі розмежування класів. Обґрунтовано вибір методів для подальшого дослідження. Сформульовано завдання дисертаційного дослідження. У другому розділі виконана формальна постановка задачі класифікації стану комп’ютерної системи. Запропоновано алгоритм побудови дерева рішень з направленим вибором одновимірних ознак, які у якості критерію прийняття рішень використовують функцію помилки, знайдену з використанням алгоритму бінарного пошуку. Розроблено процедуру формування багатовимірних ознак та запропоновано метод ідентифікації стану комп’ютерних систем на основі дерев з одновимірними та багатовимірними вузлами прийняття рішень. Запропонований метод на основі дерев рішень з багатовимірними вузлами надає можливість зменшити кількість розгалужень в деревах рішень, що підвищує швидкість ідентифікації стану комп’ютерних систем. Метод є особливо ефективним за наявності вихідних даних, які мають високі кореляційні коефіцієнти, так як поєднує їх в один або декілька багатомірних критеріїв. У третьому розділі досліджено методи ідентифікації комп’ютерної системи на основі системи нечіткого виведення. Проаналізовано основні положення нечіткої логіки, описано загальну структуру побудови систем нечіткого виведення. Досліджено РЕ-структуру шкідливого та безпечного програмного забезпечення, знайдено АРІ-функції та строки, притаманні цим файлам та виділено частину із них для подальшого аналізу. Запропоновано алгоритм побудови нечіткого дерева рішень, який відрізняється від відомих методів побудови нечітких дерев рішень наявністю спеціальної процедури фазифікації атрибутів вихідних даних та побудови функції належності. При цьому, фазифікація атрибутів є автоматизованою та відбувається за рахунок статистичного аналізу атрибутів або їх кластеризації, наприклад, алгоритмом DBSCAN. У четвертому розділі досліджено ансамблеві методи машинного навчання, які поєднують композиції однорідних базових моделей та дозволяють підвищити точність та стійкість алгоритму класифікації за рахунок усереднення чи зважування різних прогнозів. Обґрунтовано вибір мета-алгоритму ансамблю. У якості базових класифікаторів використано моделі розроблених дерев рішень. Для підвищення якості класифікації, розроблено процедуру попередньої обробки даних. Виконано налаштування класифікатору. У п’ятому розділі проаналізовано показники функціонування комп’ютерних систем, виконана їх класифікація та визначено показники, які будуть використані у якості ознак для виявлення вторгнень в комп’ютерних систем. Описано процес збору даних, розглянуто інструментарії та особливості їх збору для нормального та аномального станів функціонування комп’ютерних систем. Виконано попередню обробку даних, з метою виявлення суперечливої інформації, дублікатів, сильних та слабих викидів та високо-кореляційних ознак. Розроблено програмні компоненти запропонованих методів, описано їх архітектуру. Розглянуто показники якості класифікації та різноманітні методи оцінки ефективності моделей машинного навчання. Досліджено ефективність запропонованих методів та виконано порівняльний аналіз з класичними методами (Fine Tree, Weighted KNN та Cubic SVM). Для оцінки ефективності запропонованих методів ідентифікації, використано метрики якості. Особлива увага приділялась випадкам, коли окремі метрики набували невизначеності, що потребувало додаткового налаштування моделей. У висновках наведено основні результати наукової роботи щодо вирішення поставлених наукових задач дослідження. За результатами дослідження отримано такі наукові результати: 1. Вперше запропоновано метод побудови дерева з багатовимірними вузлами рішень, що надало можливість формувати деревоподібні моделі з урахуванням кореляційних зв’язків між показниками функціонування КС, дозволило підвищити точність ідентифікації її стану за рахунок кластеризації вихідних даних та збільшити оперативність ідентифікації завдяки зменшенню кількості розгалужень ДР; 2. Вперше запропоновано метод побудови нечіткого дерева рішень, який відрізняється від відомих наявністю спеціальної автоматизованої процедури формування нечітких множин та їх функцій належності, що дозволило підвищити точність та оперативність ідентифікації стану КС; 3. Удосконалено метод побудови дерева рішень, за рахунок використання у якості критерію прийняття рішень мінімальної помилки класифікації, використання направленого вибору ознак та застосування алгоритму бінарного пошуку для визначення оптимального значення порогу розщеплення вузла ДР, що дозволило зменшити час навчання моделі; 4. Удосконалено ансамблевий метод класифікації на основі мета-алгоритму бустінгу за допомогою використання у якості базових моделей розроблених дерев рішень та процедури попередньої обробки даних, що надало можливість підвищити точність ідентифікації стану КС. Практичне значення отриманих результатів полягає в наступному: − розроблено метод та програмне забезпечення побудови дерев з багатовимірними вузлами рішень, що дозволяє зменшити кількість розгалужень, підвищуючи оперативність ідентифікації стану комп’ютерних систем до 50% та точність до 12% (за умови наявності даних, які мають високі кореляційні коефіцієнти); − розроблено процедуру та програмне забезпечення формування нечітких множин та їх функцій належності для побудови нечітких дерев рішень, що дозволило підвищити точність класифікації до 30% (за умові великої кількості даних, які знаходяться на межі розмежування класів) та швидкість до 23%, порівнюючи з класичними дерева рішень; − удосконалено метод побудови дерева з одновимірними вузлами рішень та розроблено програмне забезпечення, що дозволило зменшити час навчання дерев рішень до 4,5 раз; − удосконалено ансамблевий метод класифікації на основі мета-алгоритму бустінгу та розроблено програмне забезпечення, яке моделює роботу методу, що дозволило підвищити точність класифікації до 32%. За результатами дослідження підтверджено практичну та теоретичну цінність розроблених методів, надано практичні рекомендації, щодо застосування розроблених методів та розглянуто перспективи їх подальшого розвитку.uk
dc.description.abstractThe thesis is submitted to obtain a scientific degree of Doctor of Philosophy, specialty 123 – Computer Engineering. – National Technical University “Kharkiv Polytechnic Institute”, Kharkiv, 2023. The dissertation work is devoted to the solution of an actual scientific and applied problem related to the development and further improvement of methods and means of identifying the state of computer systems and networks for data protection in conditions of external influences. The purpose of the dissertation is to develop new and improve existing methods for detecting anomalies, threats and malware to increase the accuracy and speed of identifying the state of computer systems and networks, which is based on machine learning methods. Object of research is the process of data protection in computer systems and networks in conditions of external influences. The subject of research is methods and means of identifying the computer systems and networks state based on machine learning techniques. The introduction substantiates the relevance of information security in computer systems and networks, presents the connection of the work with scientific programs, plans and topics, provides scientific novelty, presents the practical significance of the obtained results and provides information on the personal contribution of the applicant and publications on the topic of the dissertation. In the first chapter, the scientific and technical problem of data security in computer systems and networks is formulated. The main threats and factors that affect the functioning of computer systems and networks for the purpose of data security are researched. Malware is examined and classified. The general structure of antivirus software is analyzed. The features of intrusion prevention systems, firewalls and intrusion detection systems are explored. A study and comparative analysis of intrusion detection methods have been carried out, and promising areas of research have been highlighted. The expediency of improving the existing and developing new methods for identifying the computer systems’ state is indicated, especially when the initial data points have high correlation coefficients or fall on the edge between two classes. The scientific objectives of the dissertation research are formulated. In the second chapter, a statement of the classifying computer systems’ state problem is formulated. Trees are considered from the point of view of data structures, decision theory and machine learning, and the advantages and disadvantages of decision trees are concluded. An algorithm for constructing a decision tree with onedimensional features is proposed, which uses the error function as a decision criterion, which can be found by using the binary search algorithm. A procedure for the formation of multidimensional features is developed and a method for identifying the state of computer systems based on trees with one-dimensional and multidimensional decision nodes is proposed. The proposed method based on decision trees with multidimensional nodes makes it possible to reduce the number of branches in the decision trees, which increases the speed of identification of the computer systems’ state up to 50%. The method is particularly effective in the presence of source data with high correlation coefficients, as it combines them into one or more multidimensional criteria. In the third chapter, the methods of computer system identification based on the fuzzy inference system are studied. The main provisions of fuzzy logic are considered, the general structure of building fuzzy inference systems is described. The PE-structure of malware and safe software is analyzed, API functions and terms inherent in these files are found and selected for further analysis. An algorithm for constructing a fuzzy decision tree is proposed, which differs from the known methods of building a fuzzy decision tree by the presence of a special procedure for fuzzification the attributes of the source data and constructing a membership functions. In this case, the attribute fuzzification is automated and is carried out through statistical analysis of attributes or their clustering, for example, by using the DBSCAN algorithm. In the fourth chapter, is considered, that ensemble machine learning methods which combine heterogeneous of homogeneous base models and allow to increase the accuracy and stability of the classification algorithm by averaging or weighting different predictions. Unlike classical ensembles, the construction of ensemble metaalgorithms is fully automated and depends only on the configuration parameters. The models of the developed decision trees are used as basic ensemble classifiers. To improve the quality of classification, a data preprocessing procedure was developed. The classifier is tuned and it’s parameters are selected. The fifth chapter analyzes the indicators of computer systems functioning, classifies them and identifies the indicators that will be used as signs to detect intrusions into computer systems. The process of data collection is described, the tools and features of their collection for normal and abnormal states of computer systems are selected. Data preprocessing is performed to identify contradictory information, duplicates, strong and weak outliers, and highly correlated features. The software components of the proposed methods are developed and their architecture are described. Classification quality indicators and various methods for evaluating the effectiveness of machine learning models are considered. The effectiveness of the proposed methods is researched and a comparative analysis with classical methods (Fine Tree, Weighted KNN and Cubic SVM) is performed. To evaluate the effectiveness of the proposed identification methods, all the considered quality metrics were used. Particular attention was paid to cases where certain metrics are undefined, which required additional model tuning. The conclusions present the main results of the scientific work on solving the scientific objectives of the study. Scientific novelty of the results. As a result of the dissertation work, the scientific direction related to the development of methods and means of identifying the state of computer systems and networks for data security was further developed. The following scientific results were obtained within this area: For the first time, a method of building a tree with multidimensional decision nodes was proposed, which made it possible to build tree models taking into account the correlations between the features of computer systems functioning, increased the accuracy of identifying its state by clustering the initial data and increased the identification velocity by reducing the number of decision trees’ branches. For the first time, a method for constructing a fuzzy decision tree is proposed, which differs from the known ones by the presence of a special automated procedure for the formation of fuzzy sets and their membership functions, which made it possible to increase the accuracy and velocity of identifying the state of a computer system. The method of constructing a decision tree has been improved, which differs from the known ones by using the minimum classification error as a decision-making criterion and by applying a binary search algorithm to determine the optimal value of threshold for splitting a decision tree node. The ensemble classification method based on the meta-algorithm boosting has been improved by using the proposed decision trees as basic models and a special data preprocessing procedure, which made it possible to increase the accuracy of identifying the computer systems’ state. The practical significance of the obtained results is that the methods and tools developed in this dissertation are a scientific and methodological basis for the appropriate algorithms development and have software implementations. Their effectiveness has been confirmed in the real conditions of security systems functioning in SoftInWay Inc. and FT GROUP LLC. The developed methods can be used in the work of the relevant enterprises with high requirements for information security. The practical results include the following: – A method and software for constructing trees with multidimensional decision nodes has been developed, which allows reducing the number of branches, increasing the speed of identifying the computer systems’ state by up to 50% and accuracy by up to 12%. – The procedure and software for the formation of fuzzy sets and their membership functions for the construction of fuzzy decision trees were developed, which allowed to increase the classification accuracy by up to 30% (with a large amount of data on the verge of class delimitation) and speed by up to 23% compared to classical decision trees. – The method of building a tree with one-dimensional decision nodes was improved and software was developed that reduced decision trees training time by up to 4.5 times. – The ensemble classification method based on the meta-algorithm of boosting was improved and software was developed that simulates the method, which increased the classification accuracy by up to 32%. The research results confirmed the practical and theoretical significance of the developed methods, provided practical recommendations for the application of the developed methods and considered the prospects for their further development.en
dc.identifier.citationЧелак В. В. Методи та засоби захисту інформації в комп'ютерних системах та мережах [Електронний ресурс] : дис. ... д-ра філософії : спец. 123 : галузь знань 12 / Віктор Володимирович Челак ; наук. керівник Гавриленко С. Ю. ; Нац. техн. ун-т "Харків. політехн. ін-т". – Харків, 2023. – 231 с. – Бібліогр.: с. 152-171. – укр.uk
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/68947
dc.language.isouk
dc.publisherНаціональний технічний університет "Харківський політехнічний інститут"uk
dc.subjectдисертаціяuk
dc.subjectкомп'ютерна системаuk
dc.subjectкомп'ютерна мережаuk
dc.subjectзахист інформаціїuk
dc.subjectідентифікація аномального стануuk
dc.subjectмашинне навчанняuk
dc.subjectдерево прийняття рішеньuk
dc.subjectнечітка логікаuk
dc.subjectнейронна мережаuk
dc.subjectфункція перетворенняuk
dc.subjectшум та новизна в данихuk
dc.subjectcomputer systemen
dc.subjectcomputer networken
dc.subjectinformation securityen
dc.subjectanomalous state identificationen
dc.subjectmachine learningen
dc.subjectdecision-making treeen
dc.subjectfuzzy logicen
dc.subjectneural networken
dc.subjecttransformation functionen
dc.subjectnoise and new information in dataen
dc.subjectensemble classifieren
dc.subject.udc044.056.53+57
dc.titleМетоди та засоби захисту інформації в комп'ютерних системах та мережахuk
dc.title.alternativeMethods and Means of Information Security in Computer Systems and Networksen
dc.typeThesisen
thesis.degree.advisorГавриленко Світлана Юріївнаuk
thesis.degree.departmentРазова спеціалізована рада ДФ 64.050.099uk
thesis.degree.discipline123 – Комп'ютерна інженеріяuk
thesis.degree.grantorНаціональний технічний університет "Харківський політехнічний інститут"uk
thesis.degree.nameдоктор філософіїuk

Файли

Контейнер файлів

Зараз показуємо 1 - 5 з 16
Ескіз
Назва:
tytul_dysertatsiia_2023_Chelak_Metody_ta_zasoby_zakhystu.pdf
Розмір:
381.69 KB
Формат:
Adobe Portable Document Format
Опис:
Титул, анотації, зміст
Ескіз
Назва:
dysertatsiia_2023_Chelak_Metody_ta_zasoby_zakhystu.pdf
Розмір:
2.75 MB
Формат:
Adobe Portable Document Format
Опис:
Дисертація
Ескіз
Назва:
literatura_dysertatsiia_2023_Chelak_Metody_ta_zasoby_zakhystu.pdf
Розмір:
272.58 KB
Формат:
Adobe Portable Document Format
Опис:
Список використаних джерел
Ескіз недоступний
Назва:
KEP_dysertatsiia_Chelak_V_V.zip
Розмір:
5.73 MB
Формат:
Zip archive
Опис:
Кваліфікований електронний підпис
Ескіз
Назва:
vytiah_Chelak_V_V.pdf
Розмір:
2.02 MB
Формат:
Adobe Portable Document Format
Опис:
Витяг про наукову новизну

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
11.28 KB
Формат:
Item-specific license agreed upon to submission
Опис: