Програмний засіб для розпізнавання україномовних наукових статей

dc.contributor.authorТатарінова, Оксана Андріївнаuk
dc.contributor.authorОвсяніков, В. В.uk
dc.date.accessioned2022-05-14T14:47:41Z
dc.date.available2022-05-14T14:47:41Z
dc.date.issued2021
dc.description.abstractРозглядається задача комп’ютерного розпізнавання, як окремо друкованих символів, так і цілих текстів, що можуть містити математичні формули, та подальшого збереження результуючого документа у форматі “Латекс”. В розробленому програмному забезпеченні реалізовано можливість розпізнавання друкованих символів латиниці, кирилиці, літер грецького алфавіту та спеціальних математичних знаків. Для цього застосовуються багатошарова згортальна нейронна мережа, побудована за допомогою бібліотеки машинного навчання “Керас”, та додаткові валідаційні евристики. Для підвищення якості розпізнавання нейронної мережі розроблено складний механізм преобробки зображень, що допомагає видалити шуми із зображення, виключити похибки пов’язані з нахилом символів, коректувати дефекти символів, пов’язані з якістю вхідного зображення. Також реалізовано механізми збирання окремих символів в слова або ж математичні формули, відтворення положення знаків індексів та ступенів, формування звичайних дробів та виразів під знаком кореня. Відбувається збереження результатів розпізнаного тексту до файлу з одночасною побудовою структури «latex» документу. Для демонстрації можливостей розробленого програмного забезпечення додано графічний інтерфейс користувача, за допомогою якого можна ще до початку розпізнавання обрати та оглянути вхідне зображення. Під час тестування програмного засобу, було проведено розпізнавання зображень різних типів: повністю текстуальні, математичні формули без тексту, математичні формули, які знаходяться між блоками тексту.uk
dc.description.abstractThe problem of computer recognition, both separately printed characters and whole texts, which may contain mathematical formulas, and further saving the resulting document in the "Latex" format, is considered. The developed software implements the ability to recognize printable Latin, Cyrillic, Greek letters and special mathematical symbols. For this, a multilayer convolutional neural network built using the Keras machine learning library and additional validation heuristics are used. To improve the quality of neural network recognition, a sophisticated image processing mechanism has been developed that helps to remove noise from the image, eliminate errors associated with the inclination of characters, and correct character defects associated with the quality of the input image. Also implemented are mechanisms for collecting individual characters into words or mathematical formulas, reproducing the position of signs of indices and degrees, forming ordinary fractions and expressions under the root sign. The results of the recognized text are saved in a file with the simultaneous construction of the "latex" document structure. To demonstrate the capabilities of the developed software, a graphical user interface has been added, with which you can select and inspect the input image even before the start of recognition. During testing of the software, the recognition of images of different types was carried out: completely textual, mathematical formulas without text, mathematical formulas that are between blocks of text. Keywords: .optical character recognition, convolutional neural network, computer vision.en
dc.identifier.citationТатарінова О. А. Програмний засіб для розпізнавання україномовних наукових статей / О. А. Татарінова, В. В. Овсянiков // Вісник Національного технічного університету "ХПІ". Сер. : Динаміка і міцність машин = Bulletin of the National Technical University "KhPI". Ser. : Dynamics and Strength of Machines : зб. наук. пр. – Харків : НТУ "ХПІ", 2021. – № 2. – С. 117-122.uk
dc.identifier.doidoi.org/10.20998/2078-9130.2021.2.249715
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/56867en
dc.language.isoukuk
dc.publisherНаціональний технічний університет "Харківський політехнічний інститут"uk
dc.subjectоптичне розпізнавання символівuk
dc.subjectзгортальні нейронні мережіuk
dc.subjectкомп’ютерний зірuk
dc.subjectoptical character recognitionen
dc.subjectcomputer visionen
dc.subjectconvolutional neural networken
dc.titleПрограмний засіб для розпізнавання україномовних наукових статейen
dc.typeArticleen

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Ескіз
Назва:
visnyk_KhPI_2021_2_DMM_Ovsianikov_Prohramni.pdf
Розмір:
516.88 KB
Формат:
Adobe Portable Document Format
Опис:

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
11.28 KB
Формат:
Item-specific license agreed upon to submission
Опис: