Analysis of the text preprocessing methods influence on the destructive messages classifier

Вантажиться...
Ескіз

Дата

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

Social networks are increasingly becoming an environment for threats, insults, profanity and other destructive manifestations of human communication. Today, a huge number of people are involvedin online platforms, and the amount of content created and reactions to it is constantly breaking records. Therefore, there is a need to automate the detection and counteraction of antisocial influences. One of the important areas of such activities is the detection of toxic comments that contain threats, insults, profanity, contempt for others and more. To perform this task, researchers usually build a classifier based on neural networks. And for their training they use a collected or publicly available set of data. The article investigates how different methods of pre-processing of input data affect the final accuracy of the classifier. Previous studies in this direction have confirmed the presence of an impact on the result, but did not allow to draw definitive conclusions about the effectiveness. Goal. Research of preliminary processing of text data methods influence on the destructive messages classifier. Results.It has been shown that the effect of a particular method can be quite dependent on the content in the data set. In addition, it is noted that sometimes the impact may be insignificant, and in some cases may even lead to a worsening of the result. It is also justified the need to pre-check the data set for the percentage of elements that fall under the impact of a particular method. Originality. The methods of data processing are evaluated on the basis of English and Russian data sets. Practical significance. The obtained results allow to make better decisions about the usage of certain pre-processing methods to improve the accuracy of the destructive messages classifier.
Проблема. Соціальні мережі все частіше стають середовищем для погроз, образ, ненормативної лексики та інших деструктивних проявів людського спілкування. В онлайнових платформах сьогодні задіяна величезна кількість людей, а об'єм створеного контенту та реакцій на нього постійно б'є рекордні показники. Тому виникає потреба в автоматизації діяльності із детектування та протидії антисоціальним впливам. Одним із важливих напрямків такої діяльності є виявлення токсичних коментарів, що містять погрози, образи, ненормативну лексику, зневагу до оточуючих тощо. Для виконання такої задачі зазвичай будують класифікатор, заснований на нейронних мережах. А для їх навчання використовують зібраний власно або публічно доступний набір даних. В статті досліджується,як різні методи попередньої обробки вхідних даних впливають на кінцеву точність роботи класифікатора. Попередні дослідження в цьому напрямку підтвердили присутність впливу на результат, але не дозволили зробити остаточних висновків про ефективність. Мета. Дослідження впливу методів попередньої обробки текстових даних на результат роботи класифікатора деструктивних повідомлень. Результати. Продемонстровано, що вплив конкретного методу може досить сильно залежати від контенту в наборі даних. Крім цього, відзначено, що інколи вплив може бути незначним, а в деяких випадках може призводити навіть до погіршення результату. Також обґрунтовано необхідність попередньої перевірки набору даних на відсоток елементів, що підпадають під дію конкретного методу. Оригінальність. Проведено оцінку методів попередньої обробки даних на прикладі англомовного та російськомовного наборів даних. Практична значущість. Отримані результати дозволяють якісніше приймати рішення про використання тих чи інших методів попередньої обробки для підвищення точності прогнозів класифікатора деструктивних повідомлень.

Опис

Бібліографічний опис

Orlovskyi O. Analysis of the text preprocessing methods influence on the destructive messages classifier / O. Orlovskyi, S. Ostapov // Сучасні інформаційні системи = Advanced Information Systems. – 2020. – Т. 4, № 3. – С. 104-108.

Підтвердження

Рецензія

Додано до

Згадується в