Метод усунення аномальних вимірювань при аналізі бази багатовимірних даних під час розв'язання задачі прийняття рішень

Вантажиться...
Ескіз

Дата

2021

ORCID

DOI

doi.org/10.20998/2222-0631.2021.02.12

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

У роботі запропоновано метод усунення аномальних вимірювань (викидів) для підвищення рівня якості багатовимірних даних при статистичних дослідженнях. Така проблема виникає, наприклад, в теорії прийняття управлінських рішень, оскільки при обчисленні оцінок параметрів імовірнісних розподілів наявність у вибірці аномальних (тобто таких, що значно збільшують довірчий інтервал) вимірювань здатна спотворити результати статистичного дослідження, а, отже, і основної задачі. Особливість запропонованого метода полягає в тому, що він є комбінацією статистичних та геометричного методів, а саме: методу оцінювання Гествірта, процедури Тьюкі та модифікації метода побудови опуклої оболонки скінченої множини точок багатовимірного простору. Множині багатовимірних даних ставиться у відповідність множина точок багатовимірного простору. Для знаходження і виключення викидів будується послідовність вкладених опуклих оболонок – n-політопів, кожен з яких описується перетином напівпросторів (опорних гіперграней). Наводиться детальний алгоритм знаходження аномальних вимірювань. Їх виключення відповідає послідовному виключенню граничних точок вкладених опуклих оболонок. Оцінка Гествірта дає умову зупинки роботи алгоритму. Запропонований метод не потребує великих обчислювальних витрат та може широко використовуватися при розв’язанні як теоретичних, так і практичних задач, пов’язаних з обробкою багатовимірних даних. Наведено чисельні результати роботи методу з кількістю компонент даних 4 та 5.
The paper proposes a method for eliminating abnormal measurements (outliers) to improve the quality of multivariate data in statistical studies. Such a problem arises, for example, in the theory of managerial decision-making, since when calculating estimates of the parameters of probability distributions, the presence of anomalous (that is, those that significantly increase the confidence interval) measurements in the sample can distort the results of a statistical study, and, consequently, the main problem. The peculiarity of the proposed method is a combination of statistical and geometric methods, namely: the Gestwirt estimation method, the Tukey procedure, and a modification of the method for constructing the convex hullof a finite set of points in a multidimensional space. A set of multidimensional data is associated with a set of points of a multidimensional space. To find and eliminate outliers, a sequence of nested convex hulls, n-polytopes, is constructed, each of which is described by the intersection of half-spaces (support facets). A detailed algorithm for finding anomalous measurements is given. Their elimination corresponds to the successive elimination of the boundary points of nested convex hulls. The Gestwirt estimate gives the condition for stopping the operation of the algorithm. The proposed method does not require large computational costs and can be widely used in solving both theoretical and practical problems related to the processing of multidimensional data. The numerical results of the method withthe number of data components 4 and 5 are presented.

Опис

Ключові слова

викиди, опукла оболонка, n-вимірний політоп, outliers, convex hull, n-dimensional polytope

Бібліографічний опис

Софронова М. С. Метод усунення аномальних вимірювань при аналізі бази багатовимірних даних під час розв'язання задачі прийняття рішень / М. С. Софронова // Вісник Національного технічного університету "ХПІ". Сер. : Математичне моделювання в техніці та технологіях = Bulletin of the National Technical University "KhPI". Ser. : Mathematical modeling in engineering and technologies : зб. наук. пр. – Харків : НТУ "ХПІ", 2021. – № 1-2 (2). – С. 104-111.