Please use this identifier to cite or link to this item: http://repository.kpi.kharkov.ua/handle/KhPI-Press/57235
Title: Analysis of the sound event detection methods and systems
Other Titles: Аналіз методів та систем детектування аудіоподій
Authors: Kovalenko, Andriy
Poroshenko, Anton
Keywords: sound event detection; sound event recognition; monophonic sounds; polyphonic sounds; standard deviation; median filter; dynamic threshold; sound separation; виявлення звукових подій; розпізнавання звукових подій; монофонічні звуки; поліфонічні звуки; середньоквадратичне відхилення; медіанний фільтр; динамічний поріг; звуковий поділ
Issue Date: 2022
Publisher: Національний технічний університет "Харківський політехнічний інститут"
Citation: Kovalenko A. Analysis of the sound event detection methods and systems / A. Kovalenko, A. Poroshenko // Сучасні інформаційні системи = Advanced Information Systems. – 2022. – Т. 6, № 1. – С. 65-69.
Abstract: Detection and recognition of loud sounds and characteristic noises can significantly increase the level of safety and ensure timely response to various emergency situations. Audio event detection is the first step in recognizing audio signals in a continuous audio input stream. This article presents a number of problems that are associated with the development of sound event detection systems, such as the deviation for each environment and each sound category, overlapping audio events, unreliable training data, etc. Both methods for detecting monophonic impulsive audio event and polyphonic sound event detection methods which are used in the state-of-the-art sound event detection systems are presented. Such systems are presented in Detection and Classification of Acoustic Scenes and Events (DCASE) challenges and workshops, which take place every year. Beside a majority of works focusing on the improving overall performance in terms of accuracy many other aspects have also been studied. Several systems presented at DCASE 2021 task 4 were considered, and based on their analysis, there was a conclusion about possible future for sound event detection systems. Also the actual directions in the development of modern audio analytics systems are presented, including the study and use of various architectures of neural networks, the use of several data augmentation techniques, such as universal sound separation, etc.
Виявлення та розпізнавання гучних звуків і характерних шумів дозволяє значно підвищити рівень безпеки та забезпечити своєчасне реагування на різні аварійні ситуації. Детектування аудіоподій – це перший крок у розпізнаванні аудіосигналів з безперервним вхідним аудіопотоком. У даній статті представлено ряд проблем, пов'язаних з розробкою систем виявлення аудіоподій таких, як відхилення для кожного середовища і кожної звукової категорії, звукові події, що перекриваються, недостовірні навчальні дані та ін. Представлені, як методи виявлення монофонічних імпульсних звукових подій, так і методи виявлення поліфонічних аудіоподій, які використовуються в сучасних системах виявлення звукових подій. Такі системи представлені у завданнях та семінарах Detection and Classification of Acoustic Scenes and Events (DCASE), які відбуваються щороку. Більшість робіт спрямовані на покращення загальної продуктивності з точки зору точності, хоча також були вивчені багато інших аспектів. Було розглянуто кілька систем, представлених на DCASE 2021 в задачі 4, і на основі їх аналізу був зроблений висновок про можливе майбутнє систем виявлення звукових подій. Також представлені актуальні напрямки розвитку сучасних систем аудіоаналітики, в тому числі вивчення та використання різних архітектур нейронних мереж, використання декількох методів попередньої обробки даних, таких як універсальний розділ звуку та ін.
ORCID: orcid.org/0000-0002-2817-2836
orcid.org/0000-0001-7266-4269
DOI: doi.org/10.20998/2522-9052.2022.1.11
URI: http://repository.kpi.kharkov.ua/handle/KhPI-Press/57235
Appears in Collections:Кафедра "Комп’ютерна інженерія та програмування"

Files in This Item:
File Description SizeFormat 
AIS_2022_6_1_Kovalenko_Analysis_of_the_sound.pdf223,94 kBAdobe PDFView/Open
Show full item record  Google Scholar



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.