123 "Комп'ютерна інженерія"

Постійне посилання колекціїhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/48900

Переглянути

Результати пошуку

Зараз показуємо 1 - 5 з 5

Метод оптимального розміщення даних в білінгових OLTP-системах на основі рангового підходу
(Національний технічний університет "Харківський політехнічний інститут", 2024) Рибальченко, Аліна Олександрівна
Дисертаційна робота присвячена вирішенню актуальної науково-технічної задачі щодо розробки методу оптимального розміщення даних в білінгових OLTP-системах на основі рангового підходу. Об’єкт дослідження – процес розміщення даних в білінгових OLTP- системах. Предмет дослідження – моделі та методи оптимального розміщення даних в білінгових OLTP-системах у хмарному середовищі. Метою дисертаційної роботи – є підвищення оперативності рішення задач оптимального розміщення даних в білінгових OLTP-системах на основі рангового підходу. У вступі обґрунтовано актуальність оптимального розміщення даних в білінгових OLTP-системах, представлено зв’язок роботи з науковими програмами, планами і темами, наведено наукову новизну, представлено практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача та представлено перелік публікацій за темою дисертації. У першому розділі проведено аналіз існуючих моделей та способів побудови транзакційних інформаційних систем, розглянуто різні властивості транзакційних інформаційних систем, а саме аналіз архітектури білінгових систем у хмарному середовищі та математичні моделі, оптимізація продуктивності та вирішення завдань щодо дискретної оптимізації, а також введено критерії та показники оцінки ефективності алгоритмів оптимального розміщення даних в білінгових OLTP-системах. На основі проведеного аналізу сформульовані завдання на дослідження. У другому розділі розроблено математичну модель оптимального розміщення даних в білінгових OLTP-системах на основі рангового підходу до рішення задачі цілочисельного лінійного програмування з булевими змінними, а також удосконалено узагальнену процедуру А0 та метод відсікання безперспективних варіантів для задачі цілочисельного лінійного програмування з булевими змінними. У третьому розділі запропоновано метод оптимізації розміщення даних у білінгових OLTP-системах на основі рангового підходу та удосконалено метод формування гарантованих прогнозів для забезпечення заданої точності обчислень при допустимих часових та ресурсних витратах. У четвертому розділі приведені результати експериментального дослідження розроблених наближених та точних алгоритмів, а також стратегій формування шляхів у графі. Розкрито сутність програмного забезпечення, що розроблено для проведення експеріменту. Проведено оцінку впливу виконання сортувань коефіцієнтів при функціоналі та обмеженнях на величину похибки рішень наближених алгоритмів. Наведено результати імітаційного моделювання задачі оптимального розміщення даних в білінгових OLTP-системах та оцінка її адекватності. У висновках наведено основні результати дисертаційної роботи щодо вирішення поставлених наукових завдань дослідження. За результатами дослідження отримано наступні наукові результати: 1) вперше розроблено модель оптимального розміщення даних в білінгових OLTP-системах на основі рангового підходу до рішення задачі цілочисельного лінійного програмування з булевими змінними, яка використовує стратегії відсікання неперспективних варіантів рішення та принцип оптимізації за напрямком; 2) удосконалено метод відсікання неперспективних варіантів рішень у задачі цілочисельного лінійного програмування з булевими змінними, який відрізняється від відомих тим, що впроваджено нові поняття, як одновимірний і m-мірний "коридор" та систему калібрувальних шкал, що дозволяє ефективно відсікати неперспективні варіанти рішень; 3) вперше розроблено метод оптимального розміщення даних у білінгових OLTP-системах на основі рангового підходу, який забезпечує лінійну залежність зростання продуктивності системи, на якій вирішується задача, від кількості процесорних елементів та дозволяє знизити похибку рішення задачі цілочисельного лінійного програмування з булевими змінними за допомогою використання стратегій MAX, MIN і MAX-MIN та сортування коефіцієнтів у функціоналі та обмеженнях для відсікання неперспективних варіантів рішень, а також підвищити оперативність рішення задач оптимального розміщення даних в білінгових OLTP-системах на основі розробки паралельних наближених і точних алгоритмів для стратегій MAX, MIN і MAX-MIN та їх реалізації на паралельних обчислювальних структурах (ПОС), що використовують принцип циклічної обробки даних; 4) одержав подальший розвиток метод формування гарантованих прогнозів рішення задачі цілочисельного лінійного програмування з булевими змінними, який, на відміну від відомих, використовує принцип оптимізації за напрямком для відсікання неперспективних варіантів рішень, що дозволяє забезпечити задану точність обчислень при оптимальному розміщенні даних в білінгових OLTP-системах. Практичне значення отриманих результатів полягає у тому, що розроблені у дисертації теоретичні положення та математичні моделі є методологічною основою для розробки алгоритмічного забезпечення, апаратних засобів та програмного забезпечення щодо оптимального розміщення даних в білінгових OLTP-системах, що дозволяє вирішувати дану задачу при забезпеченні показника оперативності Р≥0,9 із кількістю змінних від 250 до 400. За результатами дослідження підтверджено практичну та теоретичну цінність удосконалених і розробленого методів, надано практичні рекомендації щодо застосування отриманих методів та розглянуто перспективи їх подальшого розвитку. The dissertation is devoted to solving an urgent scientific and technical problem related to the development of a method for optimal data placement in billing OLTP systems based on a rank-based approach. The object of research is the process of data placement in billing OLTP systems. Subject of research - models and methods of optimal data placement in billing OLTP systems in the cloud environment. The purpose of the dissertation is to increase the efficiency of solving problems of optimal data placement in billing OLTP systems based on the rank approach. The introduction substantiates the relevance of optimal data placement in billing OLTP systems, presents the connection of the work with scientific programs, plans and topics, provides scientific novelty, presents the practical significance of the results obtained, provides information on the personal contribution of the applicant and presents a list of publications on the topic of the dissertation. The first section analyzes the existing models and methods of building transactional information systems, considers various properties of transactional information systems, namely, analysis of the architecture of billing systems in the cloud environment and mathematical models, performance optimization and solving problems of discrete optimization, and introduces criteria and indicators for evaluating the effectiveness of algorithms for optimal data placement in billing OLTP systems. Based on the analysis, research tasks are formulated. The second section develops a mathematical model of optimal data placement in billing OLTP systems based on a ranked approach to solving the problem of integer linear programming with Boolean variables, and improves the generalized A0 procedure and the method of cutting off unpromising options for the problem of integer linear programming with Boolean variables. The third section proposes a method for optimizing data placement in billing OLTP systems based on the rank approach and improves the method of generating guaranteed forecasts to ensure a given calculation accuracy at acceptable time and resource costs. Chapter 4 presents the results of an experimental study of the developed approximate and exact algorithms, as well as strategies for forming paths in the graph. The essence of the software developed for the experiment is revealed. The influence of the coefficients sorting under the functional and constraints on the error of approximate algorithms' solutions is evaluated. The results of the simulation modeling of the problem of optimal data placement in billing OLTP systems and the assessment of its adequacy are presented. The conclusions summarize the main results of the dissertation in terms of solving the research objectives. The following scientific results were obtained as a result of the study: For the first time, a model of optimal data placement in billing OLTP systems has been developed based on a ranked approach to solving the problem of integer linear programming with Boolean variables, which uses strategies for cutting off unpromising solution options and the principle of optimization by direction; the method of cutting off unpromising solution options in the problem of integer linear programming with Boolean variables is improved, which differs from the known ones in that new concepts such as a one-dimensional and m-dimensional "corridor" and a system of calibration scales are introduced, which allows to effectively cut off unpromising solution options; for the first time a method of optimal data placement in billing OLTP systems based on the rank approach, which provides a linear dependence of the performance growth of the system on which the problem is solved on the number of processor elements and allows to reduce the error of solving the problem of integer linear programming with Boolean variables by using the MAX, MIN and MAX-MIN strategies and sorting the coefficients in the functionality and constraints to cut off unpromising solution options, as well as to increase the efficiency of solving the problems of optimal; the method of forming guaranteed forecasts of solving the integer linear programming problem with Boolean variables was further developed, which, unlike the known ones, uses the principle of optimization by direction to cut off unpromising solution options, which allows to ensure a given calculation accuracy with optimal data placement in billing OLTP systems. The practical significance of the obtained results is as follows: - the efficiency of solving the problem of optimal data placement in billing OLTP systems using the rank-based approach is significantly higher than in known methods, the value of the efficiency index P≥0.9 can be provided for tasks with the number of variables from 250 to 400. The results of the study confirm the practical and theoretical value of the developed methods, provide practical recommendations for the application of the developed and improved mathematical models and methods, and consider the prospects for their further development.
Ансамблевий метод ідентифікації стану комп'ютерних систем
(Національний технічний університет "Харківський політехнічний інститут", 2024) Горносталь, Олексій Андрійович
Дисертаційна робота присвячена вирішенню актуальної науково- прикладної задачі вдосконалення, розробки та впровадження методів ідентифікацій стану комп’ютерних систем з метою покращення їх ефективності за рахунок використання ансамблевих методів машинного навчання. Метою дисертаційної роботи є підвищення якості ідентифікації стану комп’ютерних систем шляхом розробки та удосконалення методів розпізнавання аномалій та зловживань. Об’єкт дослідження – процес виявлення вторгнень у комп’ютерні системи в умовах зовнішніх впливів. Предмет дослідження – методи ідентифікації стану комп’ютерних систем на основі технології машинного навчання з використанням ансамблевих мета- алгоритмів. У вступі обґрунтовано актуальність вдосконалення методів ідентифікації стану комп’ютерних систем, наведено зв’язок роботи з науковими програмами, планами і темами, представлено мету і задачі дослідження, розглянуто об’єкт, предмет та методи дослідження, наведено наукову новизну та практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача, а також представлено перелік публікацій за темою дисертації. У першому розділі проведено огляд основних факторів ризику при експлуатації комп’ютерних систем. Досліджено основні види загроз, що впливають на функціонування комп’ютерних систем. Розглянуто поняття системи виявлення вторгнень, а також процесів виявлення аномалій та зловживань. Проведено аналітичний огляд існуючих методів ідентифікації стану комп'ютерної системи та їх обмежень. Обґрунтовано вибір ансамблевих методів для вирішення задачі ідентифікації стану комп’ютерної системи. Виконано постановку науково-технічної задачі дослідження та сформульовані основні завдання. У другому розділі проведено дослідження особливостей використання беггінг-ансамблів у задачах ідентифікації стану комп’ютерних систем. Обґрунтовано вибір етапів та методів попередньої обробки даних. Особливу увагу приділено процесу виявлення аномалій та зменшення кореляції ознак за допомогою методів машинного навчання. Досліджено різні підходи до формування підвибірок вхідних даних, а також особливості процесу налаштування та навчання базових класифікаторів. Проаналізовано показники якості роботи ансамблів. Розроблено метод ідентифікації стану комп’ютерних систем, що включає процедуру попередньої обробки, яка сфокусована на видаленні аномальних даних та зменшенні статистичної залежності між ознаками, та побудову беггінг-класифікатора з налаштуванням гіперпараметрів. Розроблено програмне забезпечення для навчання та оцінки ефективності класифікаційної моделі. Виявлено, що запропонований метод дозволяє підвищити якість ідентифікації стану комп’ютерної системи за умови наявності шумів та аномалій у вхідних даних. У третьому розділі досліджено підходи об’єднання моделей у беггінг- ансамблі та напрямки їх вдосконалення. Розглянуто особливості використання нейронних мереж у якості базових моделей беггінг-ансамблю. Проаналізовано різні підходи до виконання зваженого голосування зі статичними та динамічними вагами, а також різні варіанти показників якості, які можна використовувати для розрахунку вагових коефіцієнтів. Проаналізовано основні напрямки використання техніки калібрування впевненості, а також адаптації за рахунок використання мета-ознак та мета-навчання. Досліджено методи ансамблевої обрізки з використанням різних показників якості, а також на основі двох підходів, які включали фільтрацію моделей за абсолютними значеннями цих показників і фільтрацію моделей за відстанню значення цих показників від середнього значення. Розроблено програмну модель беггінг-ансамблю на основі багатошарового перцептрона, виконано її налаштування та оцінку якості. У четвертому розділі розглянуто основні поняття, переваги та недоліки гомогенних і гетерогенних ансамблів, а також обґрунтовано вибір базових моделей гетерогенного беггінг-ансамблю та показників, які можуть враховуватися при відборі моделей. Запропонована триетапна процедура побудови гетерогенного ансамблю. За допомогою розробленого програмного забезпечення сформовано класифікатори з різними комбінаціями базових моделей у їх складі, а також виконано експериментальне дослідження ефективності їх роботи. У висновках наведено результати вирішення поставлених наукових задач та сформульовано особливості дослідження розроблених методів. За результатами дослідження отримано такі наукові результати: 1. Отримав подальший розвиток метод ідентифікації стану комп’ютерної системи на основі дерев рішень та мета-алгоритму беггінг за рахунок вибору оптимальних гіперпараметрів налаштування класифікатора та використання процедури попередньої обробки даних, яка сфокусована на видаленні аномальних даних та зменшенні статистичної залежності між ознаками, що дозволило підвищити якість ідентифікації стану КС. 2. Отримав подальший розвиток ансамблевий метод ідентифікації стану комп’ютерної системи завдяки використанню багатошарового перцептрону у якості базової моделі ансамблю та вибору оптимальних гіперпараметрів налаштування класифікатора, що дозволило підвищити якість його функціонування. 3. Удосконалено ансамблевий метод ідентифікації стану комп'ютерної системи на основі гомогенного мета-алгоритму беггінг за рахунок розробки спеціальної процедури зменшення кількості базових класифікаторів та їх ранжування під час зваженого голосування, що дозволило зменшити час роботи ансамблю та підвищити якість класифікації стану КС. 4. Вперше запропоновано метод ідентифікації стану комп'ютерної системи, який відрізняється від відомих методів використанням гетерогенного мета-алгоритму беггінг та включає триетапний процес підбору базових моделей класифікатора на основі технології Pasting, що дозволило підвищити ефективність ідентифікації стану КС. Практичне значення отриманих результатів полягає в наступному: − сформовано програмну модель попередньої обробки даних, яка сфокусована на видаленні аномальних даних та зменшенні статистичної залежності між ознаками, що дозволяє збільшити швидкість розпізнавання до 1,62 разів, зменшити час навчання моделі до 24,76 разів, а також підвищити якість класифікації; − розроблено метод ідентифікації стану комп’ютерної системи, який включає сформовану процедуру попередньої обробки даних, процес вибору алгоритму формування вхідних даних та побудову беггінг-класифікатора з налаштуванням його гіперпараметрів, що дозволило підвищити якість класифікації: значення AUC-ROC класифікатору на навчальній вибірці зростає на 11%, а на тестовій вибірці – на 3%; − реалізовано програмну модель ансамблевого класифікатору на основі багатошарового перцептрону у якості базового класифікатора та процедури підбору оптимальних налаштувань його параметрів, а саме: алгоритм формування вибірок даних, кількості базових класифікаторів, функцію оптимізації ваг нейронних мереж, розмірів першого та другого прихованих шарів та функцію активації, що дозволило підвищити значення точності класифікації на 4,67%; − розроблено програмне забезпечення, яке виконує обрізку ансамблю на основі максимізації абсолютної точності базових класифікаторів та класифікує за допомогою зваженого голосування з використанням вагових коефіцієнтів на основі функції логарифмічних втрат, що дозволило підвищити показники якості класифікації беггінг-ансамблю, а саме значення метрики F1- Score – на 2,4%; − запропоновано метод формування гетерогенного ансамблю, який включає відбір базових класифікаторів, навчання на їх основі однорідних беггінг- ансамблів, створення комбінаційних груп (пулів) із базових класифікаторів та формування гетерогенного ансамблю за допомогою процедури Pasting, що дозволило підвищити якість класифікації, а саме збільшити показник F1-Score моделі при роботі на тестових даних на 9,5% у порівнянні зі стандартним однорідним беггінг-ансамблем на основі дерев рішень та на 2% у порівнянні з максимальним значенням серед однорідних ансамблів; − результати роботи впроваджено у вигляді програмного забезпечення, яке використовується в системах моніторингу стану комп’ютерних систем та захисту інформації підприємства ТОВ «Передові цифрові рішення» (Україна), а також впроваджено в навчальний процес кафедри комп’ютерної інженерії та програмування НТУ «ХПІ» (м. Харків) при викладанні навчальних дисциплін. За результатами дослідження підтверджено теоретичну та практичну цінність, проведено дослідження їх ефективності та сформовано практичні рекомендації, щодо їх застосування. The dissertation work is devoted to the solution of the actual scientific and applied problem of improvement, development and implementation of methods for identifying the state of computer systems with the aim of improving their efficiency due to the use of ensemble methods of machine learning. The purpose of the dissertation is to improve the quality of identification of the state of computer systems by developing and improving methods for recognizing anomalies and abuses. The object of research is the process of detecting intrusions into computer systems under conditions of external influences. The subject of research is methods of identifying the state of computer systems based on machine learning technology using ensemble meta-algorithms. The introduction substantiates the relevance of improving the methods of identifying the state of computer systems, the connection of the work with scientific programs, plans and topics is presented, the purpose and tasks of the research are presented, the object, subject and methods of the research are considered. The scientific novelty, practical significance of the obtained results and information on the personal contribution are given. The introduction also presents a list of publications on the topic of the dissertation. The first chapter provides an overview of the main risk factors in the operation of computer systems. The main types of threats affecting the functioning of computer systems have been studied. The concept of an intrusion detection system, as well as anomaly and abuse detection processes, is considered. An analytical review of the existing methods of identifying the state of the computer system and their limitations was carried out. The choice of ensemble methods for solving the problem of identifying the state of the computer system is substantiated. The formulation of the scientific and technical task of the research was carried out and the main tasks were formulated. In the second chapter, a study of the features of bagging ensemble usage in the task of identifying the state of computer systems is carried out. The choice of stages and methods of data preprocessing is justified. Particular attention is paid to the process of detecting anomalies and reducing the correlation of features using machine learning methods. Various approaches that allow forming subsamples of input data have been studied, as well as the specifics of training and setting up basic classifiers, have been studied. The performance quality indicators of the ensembles were analyzed. A method for identifying the state of computer systems has been developed, which includes a preprocessing procedure focused on removing anomalous data and reducing the correlation of features, and building a begging classifier with selection of hyperparameters. Software for training and evaluating the effectiveness of the classification model has been developed. It was found that the proposed method allows to improve the quality of identification of the state of the computer system in the presence of noise and anomalies in the input data. The third chapter explores the approaches of combining models in the bagging ensemble and directions for their improvement. Specifics of using neural networks as basic models of the begging ensemble are considered. Different approaches to perform weighted voting with static and dynamic weights are analyzed, as well as different options of quality indicators that can be used to calculate weighting coefficients. The main directions of using the confidence calibration technique, as well as adaptation due to the use of meta-features and meta-learning, are considered. Ensemble pruning methods using various quality indicators were studied. Two approaches were investigated: filtering models by the absolute values of these indicators and filtering models by the distance of the value of these indicators from the average value. A software model of the begging ensemble based on a multilayer perceptron was developed, its settings and quality assessment were investigated. The fourth chapter explores the main concepts, advantages and disadvantages of homogeneous and heterogeneous ensembles, as well as substantiates the choice of basic models of the heterogeneous bagging ensemble and indicators that can be taken into account when selecting models. A three-stage procedure for building a heterogeneous ensemble is proposed. With the help of the developed software, classifiers with various combinations of basic models in their composition were formed, and an experimental study of the effectiveness of their work was also performed. The results of solving the scientific problems are presented in the conclusions. The peculiarities of the research of the developed methods are formulated. The following scientific results were obtained within this area: 1. The computer system state identification method based on decision trees and the bagging meta-algorithm was further developed due to the selection of optimal hyperparameters of the classifier setting and the use of a data pre-processing procedure, which is focused on removing anomalous data and reducing the statistical dependence between features, which allowed to improve the quality of state identification computer systems. 2. The ensemble method of identifying the state of the computer system was further developed due to the use of a multilayer perceptron as the basic model of the ensemble and the selection of optimal hyperparameters for the classifier setting, which made it possible to improve the quality of its functioning. 3. The ensemble method for identifying the state of a computer system based on the homogeneous meta-algorithm of bagging has been improved by developing a special procedure for reducing the number of basic classifiers and their ranking during weighted voting, which made it possible to reduce the time of the ensemble and improve the quality of classification of the state of the CS. 4. For the first time, the method for identifying the state of a computer system was proposed, which differs from known methods by using a heterogeneous bagging meta-algorithm and includes a three-stage process for selecting basic classification models based on the Pasting technology, which made it possible to increase the efficiency of identifying the state of the computer system. The practical significance of the obtained results includes the following achievements: − a software model for data pre-processingfocused on removing anomalous data and reducing the correlation of features was formed, which allows to increase the recognition speed up to 1.62 times, reduce the training time up to 24.76 times, and also improve the quality of their classification; − a method for identifying the state of the computer system was developed, which includes the established data preprocessing procedure, the process of selecting the input data generation algorithm, and the construction of a bagging classifier with the adjustment of its hyperparameters, which made it possible to improve the quality of classification: the AUC-ROC value of the classifier on the training sample increases by 11% , and on the test sample – by 3%; − the software model of an ensemble classifier based on a multilayer perceptron as a basic classifier and a procedure for selecting the optimal settings of its parameters (the algorithm for forming data samples, the number of basic classifiers, the function of optimizing the weights of neural networks, the sizes of the first and second hidden layers, and the activation function) has been implemented, which made it possible to increase the value of classification accuracy by 4.67%; − the software that performs ensemble pruning based on the maximization of the absolute accuracy of the base classifiers and classification using weighted voting using weights based on the logarithmic loss function was developed, which allowed to improve the quality indicators of the begging ensemble classification, namely the value of the F1-Score metric up to 2.4%; − the method for forming a heterogeneous ensemble, which includes the selection of basic classifiers, learning homogeneous bagging ensembles based on them, creating combination groups (pools) from basic classifiers and forming a heterogeneous ensemble using the Pasting procedure was developed, which made it possible to improve the quality of classification, namely to increase the F1-Score of models when working on test data by 9.5% compared to the standard homogeneous begging ensemble based on decision trees and by 2% compared to the maximum value among homogeneous ensembles; − the results of the work were implemented in the form of software that is used in the systems for monitoring the state of computer systems and protecting information of the enterprise "Advanced Digital Solutions" LLC (Ukraine), as well as implemented in the educational process of the Department of Computer Engineering and Programming of NTU "KhPI" (Kharkiv) when teaching academic subjects. According to the results of the research, the theoretical and practical value was confirmed, a study of their effectiveness was conducted and practical recommendations were formed regarding their application.
Методи обробки мультиспектральних зображень в комп'ютеризованій системі на основі нейронних мереж глибокого навчання
(Національний технічний університет "Харківський політехнічний інститут", 2024) Яловега, Владислав Анатолійович
Дисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 123 – Комп’ютерна інженерія. – Національний технічний університет «Харківський політехнічний інститут», Харків, 2024. Дисертаційна робота присвячена вирішенню актуальної науково-технічної задачі обробки мультиспектральних супутникових зображень на основі нейронних мереж глибокого навчання у комп’ютеризованій системі з метою підвищення ефективності та якості роботи рішень, що матимуть можливість отримання оперативної інформації про об’єкти земної поверхні під час проведення дистанційного зондування земної поверхні. Метою дисертаційної роботи є підвищення якості класифікації оперативної інформації про об’єкти земної поверхні при проведенні дистанційного зондування за рахунок розробки нових та удосконалення існуючих методів класифікації мультиспектральних супутникових зображень на основі методів глибокого навчання. Об’єкт дослідження – процес класифікації мультиспектральних супутникових зображень дистанційного зондування земної поверхні в комп’ютеризованій системі. Предмет дослідження – методи та засоби багатокласової класифікації на основі методів глибокого навчання. У вступі обґрунтовано актуальність науково-технічної проблеми обробки мультиспектральних зображень земного покриву в комп’ютеризованих системах, представлено зв’язок роботи з науковими програмами, планами і темами, наведено наукову новизну, представлено практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача, представлено перелік публікацій за темою дисертації. У першому розділі на основі аналітичного огляду виконано постановку науково-технічної задачі обробки мультиспектральних супутникових зображень у комп’ютеризованій системі. Досліджено основні причини та фактори необхідності спостереження за зміною земної поверхні та обробки даних дистанційного зондування Землі. Досліджено класичні методи на основі машинного навчання та методи на основі глибокого навчання для задач класифікації зображень. Проведено дослідження та порівняльний аналіз методів класифікації мультиспектральних супутникових зображень земного покриву. Обґрунтовано вибір методів для подальшого дослідження. Сформульовано завдання дисертаційного дослідження. У другому розділі виконана постановка задачі багатокласової класифікації мультиспектральних супутникових зображень у комп’ютеризованій системі на основі нейронних мереж глибокого навчання. Досліджено сучасні набори даних дистанційного зондування Землі. Розроблено метод багатокласової класифікації мультиспектральних зображень зі спектральними індексами на основі згорткової нейронної мережі визначеної архітектури, що дозволило підвищити точність класифікації об’єктів для набору даних EuroSAT. У третьому розділі отримав подальший розвиток метод багатокласової класифікації мультиспектральних зображень на основі згорткової нейронної мережі зі спектральними індексами шляхом оптимізації запропонованої процедури етапів структурного та параметричного налаштування, що з одного боку дозволило підвищити результуючі метрики оцінки якості класифікації супутникових зображень згортковою нейронною мережею, а з іншого – врахувати наявні ресурсні обмеження. Проведено порівняльне дослідження з відомими методами класифікації. Удосконалений метод зменшує кількість необхідних епох для навчання оптимізованої моделі згорткової нейронної мережі та значно підвищує метрики оцінки якості моделі нейронної мережі. У четвертому розділі удосконалено метод багатокласової класифікації мультиспектральних супутникових зображень земного покриву високої розрізнювальної здатності на основі запропонованого набору даних EuroPlanet. Запропоновано та розроблено процедуру фільтрації високоякісних супутникових зображень. Проведено валідацію EuroPlanet на основі сучасних наперед навчених нейронних мереж: Res-Net50v2, EfficientNetV2, Xception, VGG-16 та DenseNet201. Отримано, що попередньо навчена нейронна мережа DenseNet201 перевершує інші розглянуті моделі за значеннями метрик оцінки якості моделей нейронних мереж. Отримано оптимальну конфігурацію (RG+GNDVI) спектральних індексів. Досліджено вплив коефіцієнту поділу набору даних на навчальну та тестову підвибірки на метрики оцінки якості моделі нейронної мережі. Показано можливість застосування запропонованого методу для моніторингу змін земної поверхні території України, який може бути впроваджений у системи підтримки прийняття рішень. Проведені експерименти та порівняльні дослідження з відомими методами підтвердили ефективність запропонованого методу класифікації мультиспектральних зображень земного покриву, що дає змогу рекомендувати його для практичного використання. У висновках наведено основні результати досліджень, виконаних у дисертаційній роботі відповідно до поставлених наукових задач. За результатами дисертаційного дослідження отримано такі наукові результати: 1. Вперше запропоновано метод багатокласової класифікації мультиспектральних супутникових зображень земного покриву, який відрізняється від відомих процедурою пошуку оптимального набору спектральних індексів на основі вперше запропонованої архітектури згорткової нейронної мережі в комп’ютеризованій системі, що дозволило підвищити точність класифікації об’єктів земної поверхні. 2. Отримав подальший розвиток метод оптимізації згорткових нейронних мереж для задачі багатокласової класифікації супутникових зображень земного покриву за рахунок запропонованої процедури проведення оптимізації етапами структурного та параметричного налаштування при заданих бюджетних обмеженнях, що з одного боку дозволило підвищити результуючі метрики оцінки якості класифікації супутникових зображень згортковою нейронною мережею, а з іншого – врахувати наявні ресурсні обмеження. 3. Удосконалено метод багатокласової класифікації мультиспектральних супутникових зображень земного покриву високої розрізнювальної здатності, який відрізняється від відомих трансферним навчанням згорткових нейронних мереж на основі запропонованого набору даних EuroPlanet високої роздільної здатності та пошуком оптимальної конфігурації спектральних індексів, що дозволило підвищити точність класифікації даних дистанційного зондування земної поверхні та ефективність роботи моделі нейронної мережі й на території України. Розроблені та удосконалені методи є науково-методичною основою розробки алгоритмів та програмного забезпечення, практичне значення яких полягає в таких аспектах: −розроблено метод та програмне забезпечення побудови згорткової нейронної мережі для задачі багатокласової класифікації мультиспектральних супутникових зображень із оптимальним набором спектральних індексів, що дозволяє підвищити точність класифікації до 84,19% та метрику F1 до 84,05%; −отримав подальший розвиток метод та розроблено програмне забезпечення для оптимізації згорткових нейронних мереж задачі класифікації супутникових зображень земної поверхні, що покращило точність класифікації та метрику оцінки якості нейронних моделей F1 до 97.04% та до 97.05% відповідно, а для класів Herbaceous Vegetation, Permanent Crop, та Highway метрика F1 на тестовому наборі даних зросла до 20%. До того ж, використання сучасного фреймворку Ray Tune дозволило ефективно використати наявні ресурси з огляду визначених бюджетних обмежень; −розроблено процедуру фільтрації якісних супутникових зображень високої роздільної здатності, що пришвидшило й автоматизувало формування набору даних EuroPlanet у комп’ютеризованій системі; удосконалено метод та розроблене програмне забезпечення багатокласової класифікації зображень земного покриву набору даних EuroPlanet високої роздільної здатності та з оптимальною конфігурацією спектральних індексів. Точність класифікації на тестових даних склала 93,83%, а метрика F1 зросла до 93,56%. Показано можливість практичного застосування удосконаленого метода. За результатами дослідження підтверджено теоретичну та практичну цінність розроблених методів та процедур, надано практичні рекомендації щодо їх застосування в умовах повномасштабного російського вторгнення в Україну та розглянуто перспективи подальшого розвитку запропонованих методів. The thesis is submitted to obtain a scientific degree of Doctor of Philosophy, specialty 123 – Computer Engineering. – National Technical University “Kharkiv Polytechnic Institute”, Kharkiv, 2024. The dissertation work is devoted to the solution of an actual scientific and technical problem of multispectral satellite images processing based on deep learning neural networks in a computerized system to increase the performance and solutions quality that will have the possibility of obtaining actual information about Earth's surface objects during Earth remote sensing. The purpose of the dissertation is to increase the classification quality of actual information about Earth's surface objects during remote sensing by developing new and improving existing multispectral satellite images classification methods based on deep learning methods. The object of research is the process of Earth remote sensing multispectral satellite images multiclass classification in a computer system. The subject of research is methods and means of multiclass classification in a computer system based on deep learning methods. The introduction substantiates the relevance of a scientific and technical problem of Earth's surface multispectral images processing in a computerized system, presents the connection of the work with scientific programs, plans, and topics, provides scientific novelty, presents the practical significance of the obtained results and provides the applicant personal contribution information with publications on the topic of the dissertation. In the first chapter, the scientific and technical problem of multispectral satellite images processing in a computerized system is formulated based on analytical overview. The main reasons and factors of the necessity of Earth's surface change observing and processing the Earth's remote sensing data have been studied. Classic methods based on machine learning and methods based on deep learning for image classification problems have been studied. A study and comparative analysis of Earth's surface multispectral satellite images classification methods have been carried out. The choice of methods for further research is justified. The scientific objectives of the dissertation research are formulated. In the second chapter, a statement of the multispectral satellite images multiclass classification problem in a computer system based on deep learning neural networks is formulated. Modern Earth remote sensing datasets were studied. A method of multispectral multiclass images classification with spectral indices based on a defined convolutional neural network architecture has been developed which increased the object classification accuracy for the EuroSAT dataset. In the third chapter, the method of multispectral multiclass images classification based on a convolutional neural network with spectral indices was improved by optimizing the proposed procedure of rough-tuning and fine-tuning stages, which on the one hand increased the satellite images classification quality result metrics of a convolutional neural network, and on the other hand, considered existing resource limitations. A comparative study with known classification methods was conducted. The improved method reduces the number of required epochs for training the optimized convolutional neural network model and significantly increases the model evaluation metrics. In the fourth chapter, a high-resolution multispectral multiclass satellite land cover images classification method was improved based on the proposed high-resolution EuroPlanet dataset. A procedure for filtering high-resolution high-quality satellite images is proposed and developed. Validation of the EuroPlanet dataset was carried out based on modern pre-trained neural networks such as Res-Net50v2, EfficientNetV2, Xception, VGG-16, and DenseNet201. It was found that the pre-trained DenseNet201 neural network outperforms the other considered models in terms of the neural network quality metrics. The optimal spectral indexes configuration (RG+GNDVI) for EuroPlanet was obtained. The influence of the train test dataset split rate was studied. It is shown the possibility of using the proposed method for monitoring the Earth's surface changes on the Ukrainian territory and can be implemented in decision support systems. Conducted experiments and comparative studies with known methods confirmed the performance of the proposed Earth's cover multispectral images classification method, which makes it possible to use it in practical applications. The conclusions present the main results of the scientific work on solving the scientific objectives of the study. The scientific novelty of the results. As a result of the dissertation work, the following scientific results were obtained within this area: 1. For the first time, a method of Earth's surface multispectral satellite multiclass classification images is proposed, which differs from the known procedure of finding the optimal set of spectral indexes based on the proposed architecture of a convolutional neural network in a computerized system, which increased the Earth's surface objects classification accuracy. 2. The method of multispectral multiclass images classification based on a convolutional neural network with spectral indexes has been improved by optimizing the proposed procedure of rough-tuning and fine-tuning stages under given budget restrictions, which on the one hand increased the satellite images classification quality result metrics of a convolutional neural network, and on the other hand, considered existing resource limitations. 3. The method of Earth's cover high-resolution multispectral satellite multiclass classification images was improved, which differs from the known by transfer learning of convolutional neural networks based on the proposed high-resolution EuroPlanet dataset and the optimal spectral indexes configuration and made increased the Earth remote sensing data classification accuracy and the neural network model performance on the Ukrainian territory. The developed and improved methods are the scientific and methodological basis for the designing algorithms and software. The practical results include the following: –the method and software for designing a convolutional neural network were developed for the task of multispectral multiclass satellite images classification with an optimal set of spectral indexes, which increased the classification accuracy up to 84.19% and the F1 metric up to 84.05%; –the improved convolutional neural networks optimization method and software have been developed for the task of the Earth’s surface satellite images, which increased the classification accuracy and F1 metric to 97.04% and 97.05% respectively, and for the classes Herbaceous Vegetation, Permanent Crop, and Highway the F1 metric on the test dataset increased up to 20%. In addition, the use of the modern Ray Tune framework made it possible to effectively use the available resources under the defined budget restrictions; –the high-quality high-resolution satellite images filtering procedure has been developed, which accelerated and automated the creation of the EuroPlanet dataset in a computerized system; –the multiclass land cover EuroPlanet high-resolution images with the optimal configuration of spectral indexes classification method has been improved and software has been developed. The classification accuracy on the test data increased to 93.83%, and the F1 metric increased to 93.56%. The practical possibility of using the improved method is shown. The research results confirmed the practical and theoretical significance of the developed methods and procedures, provided practical recommendations for the application of the developed methods in the conditions of a full-scale Russian invasion of Ukraine, and considered the prospects for their further development.
Методи розподілу ресурсів в комп'ютерних системах при наданні хмарних інфраструктурних послуг
(2023) Петровська, Інна Юріївна
Дисертація на здобуття наукового доктора філософії (PhD) за спеціальністю 123 – Комп'ютерна інженерія. – Національний технічний інститут «Харківський політехнічний інститут», Україна, Харків, 2023. Дисертаційна робота присвячена вирішенню актуальної науково-технічної задачі щодо підвищення ефективності використання хмарних обчислювальних ресурсів при застосуванні технології, що базується на моделі «Інфраструктура у якості сервісу», шляхом розробки методів розподілу ресурсів у хмарному середовищі. Об’єкт дослідження – процес розподілу ресурсів у хмарному середовищі при використанні технології, що базується на моделі «Інфраструктура у якості сервісу». Предмет дослідження – методи розподілу ресурсів у комп'ютерних системах, інфраструктура яких міститься у хмарному середовищі. Метою дисертаційної роботи є підвищення ефективності використання хмарних обчислювальних ресурсів при використанні технології, що базується на моделі «Інфраструктура у якості сервісу» шляхом розробки методів розподілу ресурсів між користувачами хмари. У вступі обґрунтовано актуальність розподілу ресурсів у хмарному середовищі, представлено зв’язок роботи з науковими програмами, планами і темами, наведено наукову новизну, представлено практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача, представлено перелік публікацій за темою дисертації. У першому розділі проведений аналіз методів розподілу ресурсів у хмарних середовищах. Зокрема, розглянуті Особливості хмарних обчислювальних систем та розподілу ресурсів в них. Проаналізовані існуючі статичні і динамічні методи розподілу ресурсів у віртуальних середовищах. Проведений порівняльний аналіз підходів до розподілу ресурсів у хмарному середовищі з різними моделями обслуговування. На основі проведеного аналізу сформульовані задачі дослідження. У другому розділі основна увага приділена завданню базового виділення ресурсів хмарного середовища з моделлю обслуговування «Інфраструктура у якості сервісу». Для його вирішення проведена декомпозиція хмарного середовища, обґрунтований вибір методу для базового виділення хмарних ресурсів та запропонований метод базового виділення ресурсів хмарного середовища користувачу, орієнтованому на модель IaaS. Також наведений приклад базового завантаження віртуального хоста за допомогою запропонованого метода. У третьому розділі запропонований розгляд етапів методу адаптивного розподілу хмарних ресурсів при використанні моделі обслуговування «Інфраструктура у якості сервісу». Зокрема, проведене узагальнення вимог до методу розподілу хмарних ресурсів при використанні моделі обслуговування «Інфраструктура у якості сервісу» та запропонована структура методу адаптивного розподілу хмарних ресурсів. В межах даної структури розроблені метод адаптивного прогнозування на основі тесту на послідовність серій, метод превентивного формування черг запитів на віртуальні машини хмарного середовища та модель багатоцільового розподілу ресурсів, які дали можливість реалізувати адаптивний розподіл хмарних ресурсів у випадку використання моделі обслуговування «Інфраструктура у якості сервісу». У четвертому розділі проведені дослідження запропонованих методів розподілу ресурсів в комп'ютерних системах при наданні хмарних інфраструктурних послуг. Зокрема, досліджені на імітаційній моделі методи прогнозування запитів на ресурси на основі тесту на послідовність серій та адаптивного розподілу хмарних ресурсів. Також наведені практичні рекомендації по використанню адаптивного методу розподілу хмарних ресурсів. У висновках наведено основні результати наукової роботи щодо вирішення поставлених наукових задач дослідження. За результатами дослідження отримано такі наукові результати: 1) отримав подальший розвиток метод базового виділення ресурсів хмарного середовища користувачу, орієнтованому на модель «Інфраструктура у якості сервісу», шляхом попередньої декомпозиції множини доступних ресурсів на зони за допомогою введення нерівномірних шкал та використання методу аналізу ієрархій, що дозволяє підвищити рівень балансування завантаження хмарних ресурсів; 2) вперше розроблено метод превентивного формування черг запитів на віртуальні машини хмарного середовища при використанні технології, орієнтованої на модель «Інфраструктура у якості сервісу», який враховує результати аналізу попередніх даних та базується на моделі багатоцільового розподілу хмарних ресурсів, що дозволяє завчасно провести прогнозування завантаженості фізичних пристроїв хмарного середовища та запобігти втратам обчислювального ресурсу; 3) удосконалено метод адаптивного розподілу ресурсів хмарного середовища, який відрізняється від відомих використанням тестування на послідовність серій, математичного апарату удосконаленого генетичного алгоритму NSGA-II та результатами прогнозу запитів на віртуальні машини, що дозволяє підвищити ефективність використання хмарних обчислювальних ресурсів за рахунок реалізації балансу між ресурсами центрального процесора та оперативної пам'яті та зменшення затримки в обслуговуванні хмарних ресурсів. Практичне значення отриманих результатів полягає в тому, що розроблені у роботі методи є науково-практичною основою для подальшого удосконалення хмарного середовища, при використанні технології, орієнтованої на модель «Інфраструктура у якості сервісу». Представлені на їх основі інженерні методи та алгоритми дають змогу: – провести короткочасне прогнозування можливих запитів на обчислювальні ресурси хмарного середовища при використанні технології, орієнтованої на модель «Інфраструктура у якості сервісу»; – сформувати можливі черги запитів на найбільш витратний за часом формування хмарний ресурс – віртуальні машини, з відхиленням від реальних запитів не більше 15%; – підвищити рівень балансування завантаження обчислювальних ресурсів хмарного середовища при використанні технології, орієнтованої на модель «Інфраструктура у якості сервісу», за показником середнього квадратичного відхилення до 8%; – зменшити затримку в обслуговуванні обчислювальних ресурсів до 5%. За результатами дослідження підтверджено практичну та теоретичну цінність розроблених методів, надано практичні рекомендації, щодо застосування розроблених методів та розглянуто перспективи їх подальшого розвитку.
Методи та засоби захисту інформації в комп'ютерних системах та мережах
(Національний технічний університет "Харківський політехнічний інститут", 2023) Челак, Віктор Володимирович
Дисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 123 – Комп’ютерна інженерія. – Національний технічний університет “Харківський політехнічний інститут”, Харків, 2023. Дисертаційна робота присвячена вирішенню актуальної науково-прикладної задачі, пов'язаної з розробкою та подальшим удосконалення методів та засобів ідентифікації стану комп'ютерних систем та мереж для захисту даних в умовах зовнішніх впливів. Метою дисертаційної роботи є розробка нових та удосконалення існуючих методів виявлення аномалій, загроз і шкідливого програмного забезпечення для підвищення точності та швидкості ідентифікації стану комп’ютерних систем та мереж на основі технології машинного навчання. Об’єкт дослідження – процес захисту даних в комп’ютерних системах та мережах в умовах зовнішніх впливів. Предмет дослідження – методи та засоби ідентифікації стану комп’ютерних систем та мереж на основі технології машинного навчання. У вступі обґрунтовано актуальність захисту інформації в комп’ютерних системах та мережах, представлено зв’язок роботи з науковими програмами, планами і темами, наведено наукову новизну, представлено практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача, представлено перелік публікацій за темою дисертації. У першому розділі виконано постановку науково-технічної проблеми захисту даних в комп’ютерних системах та мережах. Досліджено основні загрози та фактори, які впливають на функціонування комп’ютерних систем та мереж з метою захисту даних. Досліджено загальну структуру антивірусних програм. Виявлені особливості брандмауерів, систем запобігання і виявлення вторгнень. Проведено дослідження та порівняльний аналіз методів виявлення вторгнень, виділено перспективні напрямки дослідження. Вказано на доцільність удосконалення існуючих та розробку нових методів ідентифікації стану комп’ютерних систем, особливо за умови вихідних даних, що мають високі кореляційні коефіцієнти або знаходяться на межі розмежування класів. Обґрунтовано вибір методів для подальшого дослідження. Сформульовано завдання дисертаційного дослідження. У другому розділі виконана формальна постановка задачі класифікації стану комп’ютерної системи. Запропоновано алгоритм побудови дерева рішень з направленим вибором одновимірних ознак, які у якості критерію прийняття рішень використовують функцію помилки, знайдену з використанням алгоритму бінарного пошуку. Розроблено процедуру формування багатовимірних ознак та запропоновано метод ідентифікації стану комп’ютерних систем на основі дерев з одновимірними та багатовимірними вузлами прийняття рішень. Запропонований метод на основі дерев рішень з багатовимірними вузлами надає можливість зменшити кількість розгалужень в деревах рішень, що підвищує швидкість ідентифікації стану комп’ютерних систем. Метод є особливо ефективним за наявності вихідних даних, які мають високі кореляційні коефіцієнти, так як поєднує їх в один або декілька багатомірних критеріїв. У третьому розділі досліджено методи ідентифікації комп’ютерної системи на основі системи нечіткого виведення. Проаналізовано основні положення нечіткої логіки, описано загальну структуру побудови систем нечіткого виведення. Досліджено РЕ-структуру шкідливого та безпечного програмного забезпечення, знайдено АРІ-функції та строки, притаманні цим файлам та виділено частину із них для подальшого аналізу. Запропоновано алгоритм побудови нечіткого дерева рішень, який відрізняється від відомих методів побудови нечітких дерев рішень наявністю спеціальної процедури фазифікації атрибутів вихідних даних та побудови функції належності. При цьому, фазифікація атрибутів є автоматизованою та відбувається за рахунок статистичного аналізу атрибутів або їх кластеризації, наприклад, алгоритмом DBSCAN. У четвертому розділі досліджено ансамблеві методи машинного навчання, які поєднують композиції однорідних базових моделей та дозволяють підвищити точність та стійкість алгоритму класифікації за рахунок усереднення чи зважування різних прогнозів. Обґрунтовано вибір мета-алгоритму ансамблю. У якості базових класифікаторів використано моделі розроблених дерев рішень. Для підвищення якості класифікації, розроблено процедуру попередньої обробки даних. Виконано налаштування класифікатору. У п’ятому розділі проаналізовано показники функціонування комп’ютерних систем, виконана їх класифікація та визначено показники, які будуть використані у якості ознак для виявлення вторгнень в комп’ютерних систем. Описано процес збору даних, розглянуто інструментарії та особливості їх збору для нормального та аномального станів функціонування комп’ютерних систем. Виконано попередню обробку даних, з метою виявлення суперечливої інформації, дублікатів, сильних та слабих викидів та високо-кореляційних ознак. Розроблено програмні компоненти запропонованих методів, описано їх архітектуру. Розглянуто показники якості класифікації та різноманітні методи оцінки ефективності моделей машинного навчання. Досліджено ефективність запропонованих методів та виконано порівняльний аналіз з класичними методами (Fine Tree, Weighted KNN та Cubic SVM). Для оцінки ефективності запропонованих методів ідентифікації, використано метрики якості. Особлива увага приділялась випадкам, коли окремі метрики набували невизначеності, що потребувало додаткового налаштування моделей. У висновках наведено основні результати наукової роботи щодо вирішення поставлених наукових задач дослідження. За результатами дослідження отримано такі наукові результати: 1. Вперше запропоновано метод побудови дерева з багатовимірними вузлами рішень, що надало можливість формувати деревоподібні моделі з урахуванням кореляційних зв’язків між показниками функціонування КС, дозволило підвищити точність ідентифікації її стану за рахунок кластеризації вихідних даних та збільшити оперативність ідентифікації завдяки зменшенню кількості розгалужень ДР; 2. Вперше запропоновано метод побудови нечіткого дерева рішень, який відрізняється від відомих наявністю спеціальної автоматизованої процедури формування нечітких множин та їх функцій належності, що дозволило підвищити точність та оперативність ідентифікації стану КС; 3. Удосконалено метод побудови дерева рішень, за рахунок використання у якості критерію прийняття рішень мінімальної помилки класифікації, використання направленого вибору ознак та застосування алгоритму бінарного пошуку для визначення оптимального значення порогу розщеплення вузла ДР, що дозволило зменшити час навчання моделі; 4. Удосконалено ансамблевий метод класифікації на основі мета-алгоритму бустінгу за допомогою використання у якості базових моделей розроблених дерев рішень та процедури попередньої обробки даних, що надало можливість підвищити точність ідентифікації стану КС. Практичне значення отриманих результатів полягає в наступному: − розроблено метод та програмне забезпечення побудови дерев з багатовимірними вузлами рішень, що дозволяє зменшити кількість розгалужень, підвищуючи оперативність ідентифікації стану комп’ютерних систем до 50% та точність до 12% (за умови наявності даних, які мають високі кореляційні коефіцієнти); − розроблено процедуру та програмне забезпечення формування нечітких множин та їх функцій належності для побудови нечітких дерев рішень, що дозволило підвищити точність класифікації до 30% (за умові великої кількості даних, які знаходяться на межі розмежування класів) та швидкість до 23%, порівнюючи з класичними дерева рішень; − удосконалено метод побудови дерева з одновимірними вузлами рішень та розроблено програмне забезпечення, що дозволило зменшити час навчання дерев рішень до 4,5 раз; − удосконалено ансамблевий метод класифікації на основі мета-алгоритму бустінгу та розроблено програмне забезпечення, яке моделює роботу методу, що дозволило підвищити точність класифікації до 32%. За результатами дослідження підтверджено практичну та теоретичну цінність розроблених методів, надано практичні рекомендації, щодо застосування розроблених методів та розглянуто перспективи їх подальшого розвитку.