Дослідження методів виявлення аномалій на етапі попередньої обробки даних

Гавриленко, Світлана Юріївна; Зозуля, В. Д.

doi:https://doi.org/10.26906/SUNZ.2022.1.052

Дослідження методів виявлення аномалій на етапі попередньої обробки даних

Файли

SUNZ_2022_1_Havrylenko_Doslidzhennia_metodiv.pdf (292.68 KB)

Дата

2022

Автори

Гавриленко, Світлана Юріївна

Зозуля, В. Д.

DOI

https://doi.org/10.26906/SUNZ.2022.1.052

Видавець

Національний університет "Полтавська політехніка ім. Юрія Кондратюка"

Анотація

Предметом дослідження є методи та засоби виявлення аномалій в даних. Метою статті є підвищення якості класифікації даних за рахунок виявлення аномалій на етапі їх попередньої обробки. Завдання: дослідити методи виявлення аномалій на етапі попередньої обробки даних, визначити поріг прийняття рішень anomaly_score для кожного із методів та оцінити якість класифікації до та після preprocessing. Використовуваними методами є: методи штучного інтелекту, машинного навчання, ансамблеві методи. Отримано такі результати: досліджено методи виявлення аномалій: метод стандартного відхилення (Standard Deviation Method), метод локального рівня викидів (Local Outlier Factor), метод Ізолюючого лісу (Isolation Forest). Отримано залежність кількості аномалій від порогу прийняття рішень для кожного із методів. Оцінку якості попередньої обробки даних виконано з використанням класифікаторів на основі методів KNN та беггінгу (Bagging). Досліджені методи реалізовані програмно з використанням хмарного сервісу GOOGLE COLAB на основі Jupyter Notebook. Висновки. Наукова новизна отриманих результатів полягає у дослідженні методів виявлення аномалій на етапі попередньої обробки даних, вибору мета-алгоритму preprocessing та визначення оптимальних параметрів його налаштування.
The subject of the research is the methods and means of detecting anomalies in data. The purpose of the article is to improve the quality of data classification by detecting anomalies at the pre-processing stage. Task: to investigate methods for detecting anomalies at the stage of data preprocessing, to determine the decision threshold for each of the methods and to evaluate the quality of classification before and after preprocessing. Methods used are: artificial intelligence methods, machine learning, ensemble methods. The following results were obtained: anomaly detection methods were studied: Standard Deviation Method, Local Outlier Factor method, Isolation Forest method. The dependence of the number of anomalies on the decision threshold for each of the methods is obtained. The evaluation of the quality of data preprocessing was performed using classifiers based on the KNN and Bagging methods. The studied methods are implemented programmatically using the GOOGLE COLAB cloud service based on Jupyter Notebook. Conclusions. The scientific novelty of the results obtained lies in the study of anomaly detection methods at the stage of data preprocessing, the choice of a preprocessing meta-algorithm and the determination of its optimal settings.

Ключові слова

попередня обробка даних, машинне навчання, preprocessing, Standard Deviation Method, Local Outlier Factor, Random Forest, KNN, data preprocessing, machine learning

Бібліографічний опис

Гавриленко С. Ю. Дослідження методів виявлення аномалій на етапі попередньої обробки даних / С. Ю. Гавриленко, В. Д. Зозуля // Системи управління, навігації та зв'язку = Control, navigation and communication systems : зб. наук. пр. / ред. В. В. Косенко ; Нац. ун-т "Полтав. політехніка ім. Юрія Кондратюка". – Полтава : Петров В. В., 2022. – Вип. 1 (67). – С. 52-56.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/69118

Колекції

Кафедра "Комп'ютерна інженерія та програмування"

Повна інформація про документ
Google Scholar

Дослідження методів виявлення аномалій на етапі попередньої обробки даних

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в