Information technologies of neural network speech recognition in real-time
Вантажиться...
Дата
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник/консультант
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
Національний технічний університет "Харківський політехнічний інститут"
Анотація
The purpose of this work is to explore approaches to building neural network speech recognition systems. Real-time speech recognition has become an incredibly useful tool for solving a variety of problems in different areas of life. Many companies now offer dictation software that allows people to create search queries or dictate emails using voice commands. It is appropriate to consider neural network speech recognition, in particular, Ukrainian. One of the biggest problems faced by the analysis of Ukrainian speech is the limited number of models available for recognition. While there are many models for English, there are very few for Ukrainian. In general, the potential benefits of sound processing and speech recognition are obvious, and it is quite likely that we will continue to see new developments in these areas in the future. Neural networks are described, the principle of their operation and methods of audio recognition using them. The following results were obtained: the audio signal, its representation, statistical and physical methods of working with it were studied. Conclusion. Effective models for correct speech recognition and toolkits for model training were found.
Метою даної роботи є дослідження підходів до створення систем нейромережевого розпізнавання мовлення. Розпізнавання мовлення в реальному часі стало неймовірно корисним інструментом для вирішення різноманітних проблем у різних сферах життя. Зараз багато компаній пропонують програмне забезпечення для диктування, яке дозволяє людям створювати пошукові запити або диктувати електронні листи за допомогою голосових команд. Доцільним є розгляд нейромережевого розпізнавання мови, зокрема, української. Однією з найбільших проблем, з якими стикається аналіз українського мовлення, є обмежена кількість моделей, доступних для розпізнавання. Якщо для англійської є багато моделей, то для української – їх зовсім мало. Загалом потенційні переваги обробки звуку та розпізнавання мовлення очевидні, і цілком імовірно, що ми продовжуватимемо бачити нові розробки в цих сферах у майбутньому. Описані нейромережі, принцип їх роботи та способи розпізнавання аудіо за допомогою них. Було отримано такі результати: досліджено аудіосигнал, його представлення, статистичні та фізичні методи роботи з ним. Висновок. Знайдено ефективні моделі для коректного розпізнавання мови та тулкіти для навчання моделі.
Опис
Ключові слова
neural networks, audio signal processing, convolutional neural network, gestalt grouping, cochlear model, dataset, нейронні мережі, обробка аудіосигналу, згорткова нейромережа, гештальт-групування, кохлеарна модель, датасет
Бібліографічний опис
Information technologies of neural network speech recognition in real-time / I. Serdyuk [et al.] // Територія безпеки = Terra security. – 2025. – Т. 1, № 2. – С. 72-80.
