Дослідження вибірок експериментальних даних на наявність викидів: порівняння методів
Вантажиться...
Дата
ORCID
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник/консультант
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
Задача виявлення викидів (промахів, аномальних значень, результатів, що різко виділяються, результатів, що відірвалися) є однією з найактуальніших, складних і неоднозначних при обробці експериментального матеріалу. Такими значеннями вважаються результати експерименту, які знаходяться аномально далеко від інших точок із серії паралельних спостережень. Джерелом викидів нерідко є похибки вимірювань. Серед таких є невірний запис результатів експерименту, можливе неправильне кодування даних, некоректне проведення експерименту тощо. Грубі похибки виникають при різкій зміні умов проведення дослідження, несправностях в роботі апаратури й т.і. Одночасно викиди можуть свідчити про неочікувану, неординарну поведінку вимірюваної величини, яка є проявом ще не з’ясованої властивості процесу. І тому потрібен аналіз з застосуванням надійного математичного інструментарія. Методи виявлення викидів різноманітні і численні. Параметричні тести мають більшу чутливість до розміру вибірки і до ймовірнісного розподілу значень сукупності. Більш гнучкими є непараметричні тести, які можна застосувати, якщо не можна зробити припущення про нормальність вибіркової сукупності або обсяг вибірки малий; такі критерії дають кращий результат в асиметричних розподілах, тому що застосовують медіану замість середнього; їх можна застосовувати для порядкових або номінальних даних, а також в ситуації аберрантного значення викиду. Методи інтервального аналізу, зокрема інтервальної статистики, є альтернативним гнучким інструментарієм для отримання більш точного та повного аналізу експериментальних даних за наявності неповної інформації, шумів, викидів вимірювань, наявності аномальних та аберрантних точок. Проведено порівняння результатів застосування параметричних критеріїв (-критерій, -критерій, Львовського) та непараметричних критеріїв (правило «скриньки з вусами») виявлення викидів, а також обчислення методами інтервальної статистики. Один з викидів був визначений таким непараметричним критерієм, -критерієм і процедурою виявлення поодинокого викиду інтервальними методами. Ще два значення були виявлені, як підозрілі викиди за допомогою правила «скринька з вусами» і алгоритму розпізнання з інтервальної статистики. Методи виявлення викидів методами інтервального аналізу є не менш ефективними, ніж застосування непараметричних тестів.
The task of detecting outliers (misses, abnormalous values, results that stand out sharply, results that have come off) is one of the most relevant, complex and ambiguous in the experimental materialprocessing. Such values are the experiment results, which are abnormally far from other points from a series of parallel observations. The source of emissions is often measurement errors. Among these are incorrect recording of the experiment results, possible incorrect coding of data, incorrect conduct of the experiment, etc. Gross errors occur in the event of a sudden change in the conditions of conducting the research, malfunctions in the operation of the equipment, etc. At the same time, outliers may indicate an unexpected, extraordinary behavior of the measured value – a yet-to-be-explained property process manifestation. And that's why an analysis using reliable mathematical tools is needed. The methods of detecting emissions are diverse and numerous. Parametric tests are more sensitive to the sample size and to the population values probability distribution. Nonparametric tests are more flexible and can be applied if the non-normal distributon of the sample or the sample size is small; such criteria give a better result in asymmetric distributions, because they use the median instead of the mean; they can be applied to ordinal or nominal data, as well as in the situation of an aberrant outlier value. Interval analysis methods, in particular interval statistics, are an alternative flexible toolkit for obtaining a more accurate and complete analysis of experimental data in the incomplete information, noise presence, measurement outliers, and the presence of abnormalous and aberrant points. A comparison of the results of the application of parametric criteria ( 2 -criterion, 3-criterion, Lvovskyi) and non-parametric criteria (the box-and-whiskers-plot) for detecting emissions, as well as calculation using interval statistics methods, was carried out. One of the outliers was determined by the non-parametric criterion, the -criterion and the procedure for detecting a single outlier using interval methods. Two values are suspicious outliers using the box-whisker rule and the interval statistics recognition algorithm. The methods of detecting outliers using interval analysis methods are no less effective than the use of non-parametric tests.
The task of detecting outliers (misses, abnormalous values, results that stand out sharply, results that have come off) is one of the most relevant, complex and ambiguous in the experimental materialprocessing. Such values are the experiment results, which are abnormally far from other points from a series of parallel observations. The source of emissions is often measurement errors. Among these are incorrect recording of the experiment results, possible incorrect coding of data, incorrect conduct of the experiment, etc. Gross errors occur in the event of a sudden change in the conditions of conducting the research, malfunctions in the operation of the equipment, etc. At the same time, outliers may indicate an unexpected, extraordinary behavior of the measured value – a yet-to-be-explained property process manifestation. And that's why an analysis using reliable mathematical tools is needed. The methods of detecting emissions are diverse and numerous. Parametric tests are more sensitive to the sample size and to the population values probability distribution. Nonparametric tests are more flexible and can be applied if the non-normal distributon of the sample or the sample size is small; such criteria give a better result in asymmetric distributions, because they use the median instead of the mean; they can be applied to ordinal or nominal data, as well as in the situation of an aberrant outlier value. Interval analysis methods, in particular interval statistics, are an alternative flexible toolkit for obtaining a more accurate and complete analysis of experimental data in the incomplete information, noise presence, measurement outliers, and the presence of abnormalous and aberrant points. A comparison of the results of the application of parametric criteria ( 2 -criterion, 3-criterion, Lvovskyi) and non-parametric criteria (the box-and-whiskers-plot) for detecting emissions, as well as calculation using interval statistics methods, was carried out. One of the outliers was determined by the non-parametric criterion, the -criterion and the procedure for detecting a single outlier using interval methods. Two values are suspicious outliers using the box-whisker rule and the interval statistics recognition algorithm. The methods of detecting outliers using interval analysis methods are no less effective than the use of non-parametric tests.
Опис
Ключові слова
промахи вимірювань, викиди, малі вибірки, нестатистичні похибки вимірювань, невизначеність, параметричні критерії, непараметричні критерії, інтервальний аналіз, узгоджені вибірки, неузгоджені вибірки, інтервальна статистика, outliers, small sample, non statistical measurement errors, uncertainty, parametric and non-parametric detection outliers criterions, interval analysis, compatible and incompatible sample, interval statistics
Бібліографічний опис
Потаніна Т. В. Дослідження вибірок експериментальних даних на наявність викидів: порівняння методів / Т. В. Потаніна, І. В. Михайленко // Інтегровані технології та енергозбереження. – 2023. – № 3. – С. 78-89.
