Information technologies of neural network speech recognition in real-time

The purpose of this work is to explore approaches to building neural network speech recognition systems. Real-time speech recognition has become an incredibly useful tool for solving a variety of problems in different areas of life. Many companies now offer dictation software that allows people to create search queries or dictate emails using voice commands. It is appropriate to consider neural network speech recognition, in particular, Ukrainian. One of the biggest problems faced by the analysis of Ukrainian speech is the limited number of models available for recognition. While there are many models for English, there are very few for Ukrainian. In general, the potential benefits of sound processing and speech recognition are obvious, and it is quite likely that we will continue to see new developments in these areas in the future. Neural networks are described, the principle of their operation and methods of audio recognition using them. The following results were obtained: the audio signal, its representation, statistical and physical methods of working with it were studied. Conclusion. Effective models for correct speech recognition and toolkits for model training were found.
Метою даної роботи є дослідження підходів до створення систем нейромережевого розпізнавання мовлення. Розпізнавання мовлення в реальному часі стало неймовірно корисним інструментом для вирішення різноманітних проблем у різних сферах життя. Зараз багато компаній пропонують програмне забезпечення для диктування, яке дозволяє людям створювати пошукові запити або диктувати електронні листи за допомогою голосових команд. Доцільним є розгляд нейромережевого розпізнавання мови, зокрема, української. Однією з найбільших проблем, з якими стикається аналіз українського мовлення, є обмежена кількість моделей, доступних для розпізнавання. Якщо для англійської є багато моделей, то для української – їх зовсім мало. Загалом потенційні переваги обробки звуку та розпізнавання мовлення очевидні, і цілком імовірно, що ми продовжуватимемо бачити нові розробки в цих сферах у майбутньому. Описані нейромережі, принцип їх роботи та способи розпізнавання аудіо за допомогою них. Було отримано такі результати: досліджено аудіосигнал, його представлення, статистичні та фізичні методи роботи з ним. Висновок. Знайдено ефективні моделі для коректного розпізнавання мови та тулкіти для навчання моделі.

Ключові слова

neural networks, audio signal processing, convolutional neural network, gestalt grouping, cochlear model, dataset, нейронні мережі, обробка аудіосигналу, згорткова нейромережа, гештальт-групування, кохлеарна модель, датасет

Бібліографічний опис

Information technologies of neural network speech recognition in real-time / I. Serdyuk [et al.] // Територія безпеки = Terra security. – 2025. – Т. 1, № 2. – С. 72-80.

URI

https://repository.kpi.kharkov.ua/handle/KhPI-Press/93724

Колекції

2025 № 2 Територія безпеки

Повна інформація про документ
Google Scholar

Information technologies of neural network speech recognition in real-time

Файли

Дата

Автори

ORCID

DOI

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник/консультант

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

URI

Колекції

Підтвердження

Рецензія

Додано до

Згадується в