123 "Комп'ютерна інженерія"
Постійне посилання колекціїhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/48900
Переглянути
Документ Методи та засоби захисту інформації в комп'ютерних системах та мережах(Національний технічний університет "Харківський політехнічний інститут", 2023) Челак, Віктор ВолодимировичДисертація на здобуття наукового ступеня доктора філософії (PhD) за спеціальністю 123 – Комп’ютерна інженерія. – Національний технічний університет “Харківський політехнічний інститут”, Харків, 2023. Дисертаційна робота присвячена вирішенню актуальної науково-прикладної задачі, пов'язаної з розробкою та подальшим удосконалення методів та засобів ідентифікації стану комп'ютерних систем та мереж для захисту даних в умовах зовнішніх впливів. Метою дисертаційної роботи є розробка нових та удосконалення існуючих методів виявлення аномалій, загроз і шкідливого програмного забезпечення для підвищення точності та швидкості ідентифікації стану комп’ютерних систем та мереж на основі технології машинного навчання. Об’єкт дослідження – процес захисту даних в комп’ютерних системах та мережах в умовах зовнішніх впливів. Предмет дослідження – методи та засоби ідентифікації стану комп’ютерних систем та мереж на основі технології машинного навчання. У вступі обґрунтовано актуальність захисту інформації в комп’ютерних системах та мережах, представлено зв’язок роботи з науковими програмами, планами і темами, наведено наукову новизну, представлено практичне значення отриманих результатів, надано інформацію щодо особистого внеску здобувача, представлено перелік публікацій за темою дисертації. У першому розділі виконано постановку науково-технічної проблеми захисту даних в комп’ютерних системах та мережах. Досліджено основні загрози та фактори, які впливають на функціонування комп’ютерних систем та мереж з метою захисту даних. Досліджено загальну структуру антивірусних програм. Виявлені особливості брандмауерів, систем запобігання і виявлення вторгнень. Проведено дослідження та порівняльний аналіз методів виявлення вторгнень, виділено перспективні напрямки дослідження. Вказано на доцільність удосконалення існуючих та розробку нових методів ідентифікації стану комп’ютерних систем, особливо за умови вихідних даних, що мають високі кореляційні коефіцієнти або знаходяться на межі розмежування класів. Обґрунтовано вибір методів для подальшого дослідження. Сформульовано завдання дисертаційного дослідження. У другому розділі виконана формальна постановка задачі класифікації стану комп’ютерної системи. Запропоновано алгоритм побудови дерева рішень з направленим вибором одновимірних ознак, які у якості критерію прийняття рішень використовують функцію помилки, знайдену з використанням алгоритму бінарного пошуку. Розроблено процедуру формування багатовимірних ознак та запропоновано метод ідентифікації стану комп’ютерних систем на основі дерев з одновимірними та багатовимірними вузлами прийняття рішень. Запропонований метод на основі дерев рішень з багатовимірними вузлами надає можливість зменшити кількість розгалужень в деревах рішень, що підвищує швидкість ідентифікації стану комп’ютерних систем. Метод є особливо ефективним за наявності вихідних даних, які мають високі кореляційні коефіцієнти, так як поєднує їх в один або декілька багатомірних критеріїв. У третьому розділі досліджено методи ідентифікації комп’ютерної системи на основі системи нечіткого виведення. Проаналізовано основні положення нечіткої логіки, описано загальну структуру побудови систем нечіткого виведення. Досліджено РЕ-структуру шкідливого та безпечного програмного забезпечення, знайдено АРІ-функції та строки, притаманні цим файлам та виділено частину із них для подальшого аналізу. Запропоновано алгоритм побудови нечіткого дерева рішень, який відрізняється від відомих методів побудови нечітких дерев рішень наявністю спеціальної процедури фазифікації атрибутів вихідних даних та побудови функції належності. При цьому, фазифікація атрибутів є автоматизованою та відбувається за рахунок статистичного аналізу атрибутів або їх кластеризації, наприклад, алгоритмом DBSCAN. У четвертому розділі досліджено ансамблеві методи машинного навчання, які поєднують композиції однорідних базових моделей та дозволяють підвищити точність та стійкість алгоритму класифікації за рахунок усереднення чи зважування різних прогнозів. Обґрунтовано вибір мета-алгоритму ансамблю. У якості базових класифікаторів використано моделі розроблених дерев рішень. Для підвищення якості класифікації, розроблено процедуру попередньої обробки даних. Виконано налаштування класифікатору. У п’ятому розділі проаналізовано показники функціонування комп’ютерних систем, виконана їх класифікація та визначено показники, які будуть використані у якості ознак для виявлення вторгнень в комп’ютерних систем. Описано процес збору даних, розглянуто інструментарії та особливості їх збору для нормального та аномального станів функціонування комп’ютерних систем. Виконано попередню обробку даних, з метою виявлення суперечливої інформації, дублікатів, сильних та слабих викидів та високо-кореляційних ознак. Розроблено програмні компоненти запропонованих методів, описано їх архітектуру. Розглянуто показники якості класифікації та різноманітні методи оцінки ефективності моделей машинного навчання. Досліджено ефективність запропонованих методів та виконано порівняльний аналіз з класичними методами (Fine Tree, Weighted KNN та Cubic SVM). Для оцінки ефективності запропонованих методів ідентифікації, використано метрики якості. Особлива увага приділялась випадкам, коли окремі метрики набували невизначеності, що потребувало додаткового налаштування моделей. У висновках наведено основні результати наукової роботи щодо вирішення поставлених наукових задач дослідження. За результатами дослідження отримано такі наукові результати: 1. Вперше запропоновано метод побудови дерева з багатовимірними вузлами рішень, що надало можливість формувати деревоподібні моделі з урахуванням кореляційних зв’язків між показниками функціонування КС, дозволило підвищити точність ідентифікації її стану за рахунок кластеризації вихідних даних та збільшити оперативність ідентифікації завдяки зменшенню кількості розгалужень ДР; 2. Вперше запропоновано метод побудови нечіткого дерева рішень, який відрізняється від відомих наявністю спеціальної автоматизованої процедури формування нечітких множин та їх функцій належності, що дозволило підвищити точність та оперативність ідентифікації стану КС; 3. Удосконалено метод побудови дерева рішень, за рахунок використання у якості критерію прийняття рішень мінімальної помилки класифікації, використання направленого вибору ознак та застосування алгоритму бінарного пошуку для визначення оптимального значення порогу розщеплення вузла ДР, що дозволило зменшити час навчання моделі; 4. Удосконалено ансамблевий метод класифікації на основі мета-алгоритму бустінгу за допомогою використання у якості базових моделей розроблених дерев рішень та процедури попередньої обробки даних, що надало можливість підвищити точність ідентифікації стану КС. Практичне значення отриманих результатів полягає в наступному: − розроблено метод та програмне забезпечення побудови дерев з багатовимірними вузлами рішень, що дозволяє зменшити кількість розгалужень, підвищуючи оперативність ідентифікації стану комп’ютерних систем до 50% та точність до 12% (за умови наявності даних, які мають високі кореляційні коефіцієнти); − розроблено процедуру та програмне забезпечення формування нечітких множин та їх функцій належності для побудови нечітких дерев рішень, що дозволило підвищити точність класифікації до 30% (за умові великої кількості даних, які знаходяться на межі розмежування класів) та швидкість до 23%, порівнюючи з класичними дерева рішень; − удосконалено метод побудови дерева з одновимірними вузлами рішень та розроблено програмне забезпечення, що дозволило зменшити час навчання дерев рішень до 4,5 раз; − удосконалено ансамблевий метод класифікації на основі мета-алгоритму бустінгу та розроблено програмне забезпечення, яке моделює роботу методу, що дозволило підвищити точність класифікації до 32%. За результатами дослідження підтверджено практичну та теоретичну цінність розроблених методів, надано практичні рекомендації, щодо застосування розроблених методів та розглянуто перспективи їх подальшого розвитку.