Technologies overview for typo segregation

The article focuses particularly on the difference between typos (accidental mechanical errors) and spelling or conceptual errors that arise from insufficient knowledge of language rules. Modern typo detection methods are analyzed, highlighting the advantages and disadvantages of each. The Levenshtein method is one of the most common algorithms for detecting and correcting errors in text. It effectively identifies and corrects errors in short words where the number of operations to convert the erroneous word to the correct one is small. However, this method does not consider the context in which the word is used, which can lead to incorrect corrections. The keyboard layout-based typo detection method analyzes probable errors that can occur due to the proximity of keys on the keyboard. It is simple to implement and integrate into existing spell-checking systems but does not consider the context of word usage. The contextual analysis method for typo detection relies on using contextual information to identify and correct errors in text, requiring significant computational resources and a large, diverse corpus of texts for effective model training. Deep models, such as BERT or GPT, consider the context of entire sentences or even larger text blocks, allowing for high accuracy in typo detection but require significant computational resources for training and inference, as well as large volumes of high-quality data for training. Machine learning methods, such as n-grams and Bayesian classifiers, show significant potential due to their simplicity and efficiency but may not account for complex dependencies between words and context, reducing their accuracy. The study highlights the importance of accurate error detection in student assessment systems, where typos can affect final grades and the relevance of answers. У статті особлива увага приділяється різниці між одруківками (випадковими механічними помилками) та орфографічними або концептуальними помилками, які виникають через недостатнє знання мовних правил. Проаналізовані сучасні методи виявлення одруківок, виявлені переваги та недоліки кожного з них. Метод Левенштейна є одним із найпоширеніших алгоритмів для виявлення та виправлення помилок у тексті, який ефективно виявляє та виправляє помилки в коротких словах, де кількість операцій для перетворення помилкового слова в правильне невелика. Проте цей метод не враховує контекст використання слова, що може призводити до неправильного виправлення. Метод пошуку одруківок з урахуванням розкладки клавіатури базується на аналізі ймовірних помилок, які можуть виникати через близьке розташування клавіш на клавіатурі та є простим для реалізації та інтеграції у вже існуючі системи перевірки правопису, але не враховує контекст використання слова. Метод контекстуального аналізу для відокремлення одруківок базується на використанні контекстної інформації для виявлення та виправлення помилок у тексті вимагає значних обчислювальних ресурсів і потребує великого та різноманітного корпусу текстів для ефективного навчання моделей. Глибокі моделі, такі як BERT або GPT, враховують контекст цілих речень або навіть більших текстових блоків, забезпечуючи високу точність виявлення друкарських помилок, але вимагають значних обчислювальних ресурсів для навчання та висновків, а також великих обсягів високоякісних даних для навчання. Методи машинного навчання, такі як n-grams та Байєсівські класифікатори, демонструють значний потенціал завдяки своїй простоті та ефективності проте вони можуть не враховувати складні залежності між словами та контекстом, що знижує їхню точність. Дослідження показує важливість точного виявлення таких помилок у системі оцінювання знань студентів, де одруківки можуть впливати на підсумкові оцінки та релевантність відповідей.

Ключові слова

typo, spelling error, typo detection methods, automation of typo correction, одруківка, орфографічна помилка, методи відокремлення одруківок, автоматизація відокремлення одруківок

Бібліографічний опис

Skliarov O. Technologies overview for typo segregation / Oleksandr Skliarov, Ganna Zavolodko // Security of Infocommunication Systems and Internet of Things = Безпека інфокомунікаційних систем та Інтернету речей. – 2024. – Vol. 2, № 1. – P. 1-6.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/95940

Колекції

Кафедра "Мультимедійні та інтернет технології і системи"

Повна інформація про документ
Google Scholar

Technologies overview for typo segregation

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в