Порівняння ефективності двох методів формалізації голосової взаємодії

Ескіз

Дата

2018

DOI

doi.org/10.20998/2413-4295.2018.45.14

item.page.thesis.degree.name

item.page.thesis.degree.level

item.page.thesis.degree.discipline

item.page.thesis.degree.department

item.page.thesis.degree.grantor

item.page.thesis.degree.advisor

item.page.thesis.degree.committeeMember

Назва журналу

Номер ISSN

Назва тому

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

Стаття присвячена дослідженню ефективності формалізації голосової взаємодії без перетворення голосової інформації в текст, на основі застосування рефлекторної системи голосового управління, що складаються з фонемного стенографа, який перетворює звуковий запис на фонемну репрезентацію, і ядра класифікації, яке визначає зміст та керуючий вплив з отриманого набору фонем. Мета статті полягає у порівнянні ефективності методів машинного навчання для формалізації голосової взаємодії на прикладі системи підтримки диспетчеризації автотранспорту з використанням рефлекторної системи голосового управління. З метою перевірки ефективності побудованих моделей було проведено ітеративний процес збору даних (у відповідності до моделі голосової взаємодії у вигляді дерева сценаріїв) та моделювання формалізації, який передбачав аналіз отриманих результатів та розширення метрик точності оцінювання для незбалансованих вибірок (прецизійність, повнота, F-міра). На первинному етапі зібрано голосові дані 23 дикторів, у середньому по 45 зразків на реакцію. Результати моделювання на мінімальному наборі даних обома методами показали точність не вищу за 50%, що є недостатньою для практичного застосування. На основі цього було висунуто гіпотезу про малу кількість голосових даних для машинного навчання, тому на другому етапі зібрано в середньому 310 голосових зразків для кожної з 3-х реакцій простого контексту, загалом 925 реакцій. Моделювання методом інтелектуальних рефлекторних систем показало точність біля 60%, що також є недостатнім, а методом згорткових нейронних мереж - трохи більше за 90%, що є прийнятним. Для підтвердження ефективності методу інтелектуальних рефлекторних систем двох ітерацій виявилося недостатньо, висунуто гіпотезу про недостатню якість звукового запису та високий рівень шумів як перешкоди ефективності моделі формалізації, окреслено перспективи проведення наступного етапу дослідження. Зроблено висновок про ефективність рефлекторної системи голосового управління та її здатність на практиці визначати зміст та керуючий вплив отриманого набору фонем без перетворення голосової інформації в текстову форму.
The article is devoted to the study of the effectiveness of formalization of voice interaction without the transformation of voice information into text, based on the use of a reflex voice control system consisting of a phonemic transcript that converts a sound recording to a phonemic representation, and a classification core that determines the content and control of the received phonemic set. The purpose of the paper is to compare the effectiveness of machine learning methods for formalizing voice interaction on an example of a support system for vehicle dispatching using a reflex voice control system. In order to verify the effectiveness of the constructed models, an iterative process of data collection (in accordance with the model of voice interaction in the form of a tree of scenarios) and formalization modeling was carried out, which included analysis of the results and the expansion of metrics for the accuracy of the evaluation for unbalanced samples (precision, recall, F-score). At the initial stage, voice data of 23 speakers was collected, with an average of 45 samples per reaction. The simulation results on a minimum set of data by both methods showed an accuracy of no more than 50%, which is insufficient for practical application. On the second stage, an average of 310 voice samples were collected for each of the 3 simple-context reactions, a total of 925 reactions. The simulation by the method of intelligent reflex systems showed a accuracy of about 60%, which is also insufficient, and the accuracy of method of convolutional neural networks is slightly more than 90%, which is acceptable. In order to confirm the efficiency of the method of intelligent reflex systems, two stages was insufficient, the hypothesis about insufficient quality of sound recordings and high level of noise as obstacles to the effectiveness of the formalization model was advanced, prospects for conducting the next stage of the research were outlined. A conclusion is made about the effectiveness of the reflex voice control system and its ability to determine in practice the content and control of the received phonemic set without converting the voice information into a text form.

Опис

Ключові слова

інтелектуальні рефлекторні системи, згорткові нейронні мережі, класифікація мовлення, intelligent reflex systems, convolutional neural networks, speach classification

Бібліографічний опис

Найдьонов І. М. Порівняння ефективності двох методів формалізації голосової взаємодії / І. М. Найдьонов // Вісник Національного технічного університету "ХПІ". Сер. : Нові рішення в сучасних технологіях = Bulletin of the National Technical University "KhPI". Ser. : New solutions in modern technology : зб. наук. пр.– Харків : НТУ "ХПІ", 2018. – № 45 (1321). – С. 104-112.

Колекції

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced