Development and comparative analysis of semi-supervised learning algorithms on a small amount of labeled data
Дата
2021
Автори
DOI
doi.org/10.20998/2079-0023.2021.01.16
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
The paper is dedicated to the development and comparative experimental analysis of semi-supervised learning approaches based on a mix of unsupervised and supervised approaches for the classification of datasets with a small amount of labeled data, namely, identifying to which of a set of categories a new observation belongs using a training set of data containing observations whose category membership is known. Semi-supervised learning is an approach to machine learning that combines a small amount of labeled data with a large amount of unlabeled data during training. Unlabeled data, when used in combination with a small quantity of labeled data, can produce significant improvement in learning accuracy.The goal is semi-supervised methods development and analysis along with comparing their accuracy and robustness on different synthetics datasets. The proposed approach is based on the unsupervised K-medoids methods, also known as the Partitioning Around Medoid algorithm, however, unlike K-medoids the proposed algorithm first calculates medoids using only labeled data and next process unlabeled classes – assign labels of nearest medoid. Another proposed approach is the mix of the supervised method of K-nearest neighbor and unsupervised K-Means. Thus, the proposed learning algorithm uses information about both the nearest points and classes centers of mass. The methods have been implemented using Python programming language and experimentally investigated for solving classification problems using datasets with different distribution and spatial characteristics. Datasets were generated using the scikit-learn library. Was compared the developed
approaches to find average accuracy on all these datasets. It was shown, that even small amounts of labeled data allow us to use semi-supervised learning, and proposed modifications ensure to improve accuracy and algorithm performance, which was demonstrated during experiments. And with the increase of available label information accuracy of the algorithms grows up. Thus, the developed algorithms are using a distance metric that considers available label information.
Дана робота присвячена розробці та порівняльному аналізу алгоритмів навчання з частковим залученням вчителя, заснованих на поєднанні неконтрольованих та контрольованих підходів до класифікації наборів даних з невеликою кількістю маркованих даних, а саме виявленню, до якої з набору категорій нове спостереження належить за допомогою навчального набору даних, що містить спостереження, приналежність до категорії яких відома. Навчання з частковим залученням вчителя – це підхід до машинного навчання, який поєднує невелику кількість маркованих даних з великою кількістю немаркованих даних під час навчання. Немарковані дані, якщо їх використовувати в поєднанні з невеликою кількістю маркованих даних, можуть значно покращити точність навчання. Метою роботи є розробка та аналіз методів навчання з частковим залученням вчителя, а також порівняння їх точності та надійності на різних наборах штучних даних. Запропонований підхід заснований на методі неконтрольованого навчання K-медоїдів, також відомий як алгоритм Розбиття навколо медоїдів, однак, на відміну від K-медоїдів, запропонований алгоритм спочатку обчислює медоїди, використовуючи лише маркованi дані, а далі обробляє не марковані елементи - призначає мітки найближчих медоїд. Іншим запропонованим підходом є поєднання контрольованого методу K-найближчіх сусідів та неконтрольованого K-середніх. При цьому запропонований алгоритм навчання використовує інформацію як про найближчі точки, так і про класи центрів маси. Методи були реалізовані з використанням мови програмування Python та експериментально досліджені для вирішення проблем класифікації з використанням наборів даних з різними розподілом та просторовими характеристиками. Набори даних були сформовані за допомогою бібліотеки scikit-learn. Було порівняно розроблені підходи за їх середню точність за всіма датасетами. Було показано, що навіть невеликі кількості маркованих даних дозволяють використовувати навчання з частковим залученням вчителя, а запропоновані модифікації забезпечують підвищення точності та роботи алгоритму, що було продемонстровано під час експериментів. І зі збільшенням доступної інформації про ярлики, точність алгоритмів зростає. Таким чином розроблені алгоритми використовують метрику відстані, яка враховує доступну інформацію про ярлик.
Дана робота присвячена розробці та порівняльному аналізу алгоритмів навчання з частковим залученням вчителя, заснованих на поєднанні неконтрольованих та контрольованих підходів до класифікації наборів даних з невеликою кількістю маркованих даних, а саме виявленню, до якої з набору категорій нове спостереження належить за допомогою навчального набору даних, що містить спостереження, приналежність до категорії яких відома. Навчання з частковим залученням вчителя – це підхід до машинного навчання, який поєднує невелику кількість маркованих даних з великою кількістю немаркованих даних під час навчання. Немарковані дані, якщо їх використовувати в поєднанні з невеликою кількістю маркованих даних, можуть значно покращити точність навчання. Метою роботи є розробка та аналіз методів навчання з частковим залученням вчителя, а також порівняння їх точності та надійності на різних наборах штучних даних. Запропонований підхід заснований на методі неконтрольованого навчання K-медоїдів, також відомий як алгоритм Розбиття навколо медоїдів, однак, на відміну від K-медоїдів, запропонований алгоритм спочатку обчислює медоїди, використовуючи лише маркованi дані, а далі обробляє не марковані елементи - призначає мітки найближчих медоїд. Іншим запропонованим підходом є поєднання контрольованого методу K-найближчіх сусідів та неконтрольованого K-середніх. При цьому запропонований алгоритм навчання використовує інформацію як про найближчі точки, так і про класи центрів маси. Методи були реалізовані з використанням мови програмування Python та експериментально досліджені для вирішення проблем класифікації з використанням наборів даних з різними розподілом та просторовими характеристиками. Набори даних були сформовані за допомогою бібліотеки scikit-learn. Було порівняно розроблені підходи за їх середню точність за всіма датасетами. Було показано, що навіть невеликі кількості маркованих даних дозволяють використовувати навчання з частковим залученням вчителя, а запропоновані модифікації забезпечують підвищення точності та роботи алгоритму, що було продемонстровано під час експериментів. І зі збільшенням доступної інформації про ярлики, точність алгоритмів зростає. Таким чином розроблені алгоритми використовують метрику відстані, яка враховує доступну інформацію про ярлик.
Опис
Ключові слова
distance function, nearest neighbor, medoid, center of mass, функція відстані, найближчий сусід, медоід, центр мас
Бібліографічний опис
Yamkovyi K. Development and comparative analysis of semi-supervised learning algorithms on a small amount of labeled data / K. Yamkovyi // Вісник Національного технічного університету "ХПІ". Сер. : Системний аналіз, управління та інформаційні технології = Bulletin of the National Technical University "KhPI". Ser. : System analysis, control and information technology : зб. наук. пр. – Харків : НТУ "ХПІ", 2021. – № 1 (5). – С. 98-103.