Analysis of methods for classification and aggregation of textual data from images

Popovych, Bohdan; Zavolodko, Ganna

doi:https://doi.org/10.31861/sisiot2024.1.01008

Analysis of methods for classification and aggregation of textual data from images

dc.contributor.author	Popovych, Bohdan
dc.contributor.author	Zavolodko, Ganna
dc.date.accessioned	2025-12-04T09:24:23Z
dc.date.issued	2024
dc.description.abstract	This study investigates modern methods of text recognition from images, specifically comparing optical character recognition and intelligent character recognition. The technologies of machine learning, including convolutional and recurrent neural networks, are compared based on criteria such as accuracy and efficiency in processing handwritten and printed texts. The advantages and limitations of existing solutions for forming digital documents from images containing various handwriting styles and low-quality text images are analyzed. Key challenges associated with processing multilingual texts are identified, and future prospects for the development of text recognition technologies are discussed. У статті досліджуються сучасні методи розпізнавання тексту з зображень, зокрема порівнюються оптичне розпізнавання символів (ОРС) та інтелектуальне розпізнавання символів (ІРС). Розглянуто технології машинного навчання, включаючи згорткові нейронні мережі (ЗНМ) та рекурентні нейронні мережі (РНМ), які використовуються для підвищення точності та ефективності обробки рукописних і друкованих текстів. Вивчено переваги та обмеження існуючих рішень для формування цифрових документів з зображень, що містять різні стилі почерку і текст на зображеннях низької якості. Зокрема, ІРС демонструє високу адаптивність до змінних умов, що робить його ефективнішим у порівнянні з традиційними методами ОРС. Значна увага приділена здатності ICR обробляти багатомовні тексти, що розширює можливості її використання у різних сферах діяльності. У статті також аналізуються основні виклики, пов'язані з обробкою рукописного тексту різних стилів, а також необхідність покращення швидкості розпізнавання. Представлені результати свідчать про високий потенціал використання ЗНМ та РНМ у задачах ОРС, а також про перспективність гібридних моделей, що поєднують переваги обох підходів для досягнення дуже високої точності розпізнавання. Особливо важливим є застосування цих технологій у таких галузях, як цифрова обробка рукописних документів, автоматизація поштових послуг та розширення інструментів доступності. Ці висновки підкреслюють важливість подальших досліджень та розвитку технологій розпізнавання тексту для покращення ефективності обробки даних та інтеграції рукописних текстів у сучасні інформаційні системи. Дослідження показує, що технології машинного навчання та глибокого навчання можуть значно покращити точність розпізнавання тексту, зменшуючи необхідність людського втручання та прискорюючи процес обробки даних. У статті також розглядаються практичні аспекти впровадження цих технологій, зокрема, необхідність великих обчислювальних ресурсів для навчання моделей та забезпечення надійної роботи систем у різних умовах. Це дослідження є важливим внеском у розвиток технологій цифрової обробки тексту, що мають широкі перспективи застосування у різних галузях, включаючи науку, медицину, освіту та бізнес. Використання сучасних методів розпізнавання тексту дозволить значно підвищити ефективність обробки інформації та сприяти розвитку інноваційних рішень для роботи з великими обсягами даних.
dc.identifier.citation	Popovych B. Analysis of methods for classification and aggregation of textual data from images / Bohdan Popovych, Ganna Zavolodko // Security of Infocommunication Systems and Internet of Things = Безпека інфокомунікаційних систем та Інтернету речей. – 2024. – Vol. 2, № 1. – P. 1-5.
dc.identifier.doi	https://doi.org/10.31861/sisiot2024.1.01008
dc.identifier.orcid	https://orcid.org/0009-0009-6802-1549
dc.identifier.orcid	https://orcid.org/0000-0003-0000-8910
dc.identifier.uri	https://repository.kpi.kharkov.ua/handle/KhPI-Press/95942
dc.language.iso	en
dc.publisher	Чернівецький національний університет імені Юрія Федьковича
dc.subject	text recognition
dc.subject	machine learning
dc.subject	data processing automation
dc.subject	multilingual texts
dc.subject	comparative analysis
dc.subject	розпізнавання тексту
dc.subject	машинне навчання
dc.subject	автоматизація обробки даних
dc.subject	багатомовні тексти
dc.subject	порівняльний аналіз
dc.title	Analysis of methods for classification and aggregation of textual data from images
dc.title.alternative	Аналіз методів класифікації та агрегації текстових даних з зображення
dc.type	Article

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: SISIOT_2024_2_1_Popovych_Analysis_of_methods.pdf
Розмір:: 353.44 KB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 11.25 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Колекції

Кафедра "Мультимедійні та інтернет технології і системи"