Analysis of the sound event detection methods and systems

Ескіз

Дата

2022

DOI

doi.org/10.20998/2522-9052.2022.1.11

Науковий ступінь

Рівень дисертації

Шифр та назва спеціальності

Рада захисту

Установа захисту

Науковий керівник

Члени комітету

Назва журналу

Номер ISSN

Назва тому

Видавець

Національний технічний університет "Харківський політехнічний інститут"

Анотація

Detection and recognition of loud sounds and characteristic noises can significantly increase the level of safety and ensure timely response to various emergency situations. Audio event detection is the first step in recognizing audio signals in a continuous audio input stream. This article presents a number of problems that are associated with the development of sound event detection systems, such as the deviation for each environment and each sound category, overlapping audio events, unreliable training data, etc. Both methods for detecting monophonic impulsive audio event and polyphonic sound event detection methods which are used in the state-of-the-art sound event detection systems are presented. Such systems are presented in Detection and Classification of Acoustic Scenes and Events (DCASE) challenges and workshops, which take place every year. Beside a majority of works focusing on the improving overall performance in terms of accuracy many other aspects have also been studied. Several systems presented at DCASE 2021 task 4 were considered, and based on their analysis, there was a conclusion about possible future for sound event detection systems. Also the actual directions in the development of modern audio analytics systems are presented, including the study and use of various architectures of neural networks, the use of several data augmentation techniques, such as universal sound separation, etc.
Виявлення та розпізнавання гучних звуків і характерних шумів дозволяє значно підвищити рівень безпеки та забезпечити своєчасне реагування на різні аварійні ситуації. Детектування аудіоподій – це перший крок у розпізнаванні аудіосигналів з безперервним вхідним аудіопотоком. У даній статті представлено ряд проблем, пов'язаних з розробкою систем виявлення аудіоподій таких, як відхилення для кожного середовища і кожної звукової категорії, звукові події, що перекриваються, недостовірні навчальні дані та ін. Представлені, як методи виявлення монофонічних імпульсних звукових подій, так і методи виявлення поліфонічних аудіоподій, які використовуються в сучасних системах виявлення звукових подій. Такі системи представлені у завданнях та семінарах Detection and Classification of Acoustic Scenes and Events (DCASE), які відбуваються щороку. Більшість робіт спрямовані на покращення загальної продуктивності з точки зору точності, хоча також були вивчені багато інших аспектів. Було розглянуто кілька систем, представлених на DCASE 2021 в задачі 4, і на основі їх аналізу був зроблений висновок про можливе майбутнє систем виявлення звукових подій. Також представлені актуальні напрямки розвитку сучасних систем аудіоаналітики, в тому числі вивчення та використання різних архітектур нейронних мереж, використання декількох методів попередньої обробки даних, таких як універсальний розділ звуку та ін.

Опис

Ключові слова

sound event detection, sound event recognition, monophonic sounds, polyphonic sounds, standard deviation, median filter, dynamic threshold, sound separation, виявлення звукових подій, розпізнавання звукових подій, монофонічні звуки, поліфонічні звуки, середньоквадратичне відхилення, медіанний фільтр, динамічний поріг, звуковий поділ

Бібліографічний опис

Kovalenko A. Analysis of the sound event detection methods and systems / A. Kovalenko, A. Poroshenko // Сучасні інформаційні системи = Advanced Information Systems. – 2022. – Т. 6, № 1. – С. 65-69.

Підтвердження

Рецензія

Додано до

Згадується в