Analysis of text augmentation algorithms in artificial language machine translation systems

dc.contributor.authorHavrashenko, Anton
dc.contributor.authorBarkovska, Olesia
dc.date.accessioned2023-05-28T16:15:30Z
dc.date.available2023-05-28T16:15:30Z
dc.date.issued2023
dc.description.abstractThe work is devoted to the development of an organizational model of the machine translation system of artificial languages. The main goal is the analysis of text augmentation algorithms, which are significant elements of the developed machine translation system at the stage of improvement of new dictionaries created on the basis of already existing dictionaries. In the course of the work was developed a model of the machine translation system, created dictionaries based on texts and based on already existing dictionaries using augmentation methods such as back translation and crossover; improved dictionary based on algorithms of n-grams, Knuth-Morris-Pratt and word search in the text (such as binary search, tree search, sqrt decomposition). In addition, the work implements the possibility of using the prepared dictionary for translation. Obtained results can improve existing systems of machine translation of the text of artificial languages. Practical significance of this work is the analysis and improvement of text augmentation algorithms by changing the prefix tree type. Compared to the conventional algorithm, the improved algorithm reduced the memory usage by almost 13 times, which allows it to be used on much larger test data. This was achieved by changing the internal system of the node of the prefix tree from constant references to an expandable list.
dc.description.abstractРобота присвячена розробці організаційної моделі системи машинного перекладу штучних мов. Головною метою є аналіз алгоритмів аугментації тексту, які є значущими елементами розробленої системи машинного перекладу на етапі вдосконалення створених нових словників на основі вже існуючих словників. В ході виконання роботи була розроблена модель системи машинного перекладу, створені словники на основі текстів та на основі вже існуючих словників методами аугментації такими, як зворотній переклад та кросовер; вдосконалено створений словник на основі алгоритмів n-грамм, Кнута-Моріса-Пратта та пошуку слів у тексті (таких, як бінарний пошук, пошук в дереві, пошук в кореневій декомпозиції). Окрім того, в роботі реалізована можливість використання підготовленого словнику для перекладу. Отримані результати можуть покращитиіснуючі системи машинного перекладу тексту штучних мов. Практичною значущістю даної роботи є аналіз та покращення алгоритмів аугментації тексту за допомогою зміну типу префіксного дерева(бора).Порівняно зі звичайним алгоритмом, покращений алгоритм дозволив скоротити використання пам’яті майже в 13 разів, що дозволяє використовувати його на набагато більших тестових даних. Це було досягнуто завдяки зміні внутрішньої системи вершини бору із константних посилань, на розширюваний список.
dc.identifier.citationHavrashenko A. Analysis of text augmentation algorithms in artificial language machine translation systems / A. Havrashenko, O. Barkovska // Сучасні інформаційні системи = Advanced Information Systems. – 2023. – Т. 7, № 1. – С. 47-53.
dc.identifier.doidoi.org/10.20998/2522-9052.2023.1.08
dc.identifier.orcidhttps://orcid.org/0000-0002-8802-0529
dc.identifier.orcidhttps://orcid.org/0000-0001-7496-4353
dc.identifier.urihttps://repository.kpi.kharkov.ua/handle/KhPI-Press/65562
dc.language.isoen
dc.publisherНаціональний технічний університет "Харківський політехнічний інститут"
dc.subjecttranslation
dc.subjectaugmentation
dc.subjectprefix tree
dc.subjectdictionary
dc.subjectartificial language
dc.subjectпереклад
dc.subjectаугментація
dc.subjectпрефіксне дерево
dc.subjectсловник
dc.subjectштучна мова
dc.titleAnalysis of text augmentation algorithms in artificial language machine translation systems
dc.title.alternativeАналіз алгоритмів аугментації тексту в системах машинного перекладу штучних мов
dc.typeArticle

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1
Ескіз
Назва:
AIS_2023_7_1_Havrashenko_Analysis_of_text.pdf
Розмір:
519.48 KB
Формат:
Adobe Portable Document Format

Ліцензійна угода

Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
10.82 KB
Формат:
Item-specific license agreed upon to submission
Опис: