Detekcia Akusticke ho Prostredia z Rec i

Size: px

Start display at page:

Download "Detekcia Akusticke ho Prostredia z Rec i"

Oswald Young
5 years ago
Views:

http://excel.fit.vutbr.cz Detekcia Akusticke ho Prostredia z Rec i Matu s Dobrotka* Abstrakt Te ma tejto pra ce je klasifika cia audio nahra vky do 15 tried.

Fu zia ty chto dvoch syste mov vy sledok es te zleps ila na 69%, c o by v dobe su t az e stac ilo na 20. miesto z 97 odovzdany ch syste mov z cele ho sveta.

cz, Faculty of Information Technology, Brno University of Technology 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 1.

1 Detekcia Akusticke ho Prostredia z Rec i Matu s Dobrotka* Abstrakt Te ma tejto pra ce je klasifika cia audio nahra vky do 15 tried. C la nok popisuje 2 meto dy zaloz ene na GMM a i-vectoroch a ich vza jomnu fu ziu. Na da tach zo su t az e DCASE dosiahol najleps ı GMM syste m u spes nost 59% a ivector syste m 68%. Fu zia ty chto dvoch syste mov vy sledok es te zleps ila na 69%, c o by v dobe su t az e stac ilo na 20. miesto z 97 odovzdany ch syste mov z cele ho sveta. Kl u c ove slova : detekcia akusticke ho prostredia GMM i-vector fu zia Priloz ene materia ly: N/A *xdobro12@stud.fit.vutbr.cz, Faculty of Information Technology, Brno University of Technology U vod Zvuk nesie obrovske mnoz stvo informa cie o nas om kaz dodennom prostredı a tiez o fyzika lnych udalostiach, ktore sa v n om uskutoc n uju. Mo z me vnı mat prostredie, v ktorom sa nacha dzame (naprı klad preplnena ulica, kancela ria,...) a tiez rozpozna vat jednotlive zdroje zvukov (auto precha dzaju ce okolo, kroky l udı, apod.). Vy voj meto d spracovania signa lu, ktore su schopne automaticky extrahovat tieto informa cie, ma preto obrovsky potencia l pre ro zne aplika cie. Mo z e sa jednat naprı klad o vyhl ada vanie multime diı zaloz ene na ich audio obsahu, vytva ranie kontextovy ch mobilny ch zariadenı, robotov, automobily,... a tiez inteligentne monitorovacie syste my rozpozna vaju ce c innosti v ich okolı vyuz itı m akusticky ch informa ciı. Vzhl adom ale k tomu, z e ta to oblast es te nie je na takej u rovni, z e by bolo moz ne spol ahlivo rozpozna vat zvukove prostredia a jednotlive zdroje zvuku v realistickej zvukovej palete, kde poc ut viacere zvuky a c asto su bez ne a tiez skreslene prostredı m, je es te potrebne znac ne mnoz stvo vy skumu. Aj preto som sa rozhodol venovat pra ve tejto te me. Te ma vycha dza zo zadania medzina rodnej su t az e DCASE Challenge, ktora je popı sana v nasleduju cej kapitole. Ciel om tejto pra ce je vytvorit syste m schopny klasifikovat testovaciu nahra vku do jednej z 15 preddefinovany ch tried, ktore charakterizuju prostredie, kde bola nahra vka nahrata. Vy stiz ne taky to syste m popisuje obra zok 1. Jedna sa o ty chto 15 prostredı : Autobus Kaviaren /res taura cia Auto Centrum mesta Lesna cesta Obchod s potravinami - obchod strednej vel kosti Obydlie/dom Pla z pri jazere Kniz nica Metro stanica Kancela ria - viacero oso b, typicky pracovny den Sı dlisko/obytna oblast Vlak Elektric ka Mestsky park

47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 Obrázok 1. Prehl ad systému pre klasifikáciu akustického prostredia [1] 2.

2 Obrázok 1. Prehl ad systému pre klasifikáciu akustického prostredia [1] 2. DCASE challenge Týmto pojmom sa označuje celosvetová sút až organizovaná fínskou výskumnou skupinou zameranou na audio z Technickej Univerzity v Tampere. Úplný názov sút aže je Detection and Classification of Acoustic Scenes and Events. Vznikla už v roku 2013 s ciel om zvýšit vývoj v oblasti analýzy zvukov z prostredí, v ktorých sa bežne nachádzame. A to porovnávaním rozličných prístupov za použitia spoločného verejne dostupného datasetu a rovnakej vyhodnocovacej metriky. Po úspešnom úvodnom ročníku došlo v tejto sút aži k dvojročnej prestávke a v roku 2016 organizátori znovu obnovili jej priebeh. Tretí a zároveň zatial posledný ročník sa uskutočnil v roku Sút až ako taká obsahuje 4 úlohy a zúčastnit sa jej môže ktokol vek bez ohl adu na to, či sa rozhodne riešit iba jednu úlohu, alebo viacero z nich. Každá z týchto úloh je nezávislá, všetky úlohy sú vyhodnocované samostatne. Táto práca je inšpirovaná prvou z úloh, ktorej názov je Detekcia akustického prostredia, pričom som sa sústredil na ročník Obrázok 2 ukazuje kompletné výsledky zúčastnených tímov a ich systémov. Môžme vidiet, že baseline systém, ktorý bol uvol nený autormi sút aže, dosahoval úspešnost na evaluačných dátach 61% a najlepší systém až 83%. 2.1 Prehl ad výskumu Účastníci sút aže z roku 2017 vo svojich článkoch opisujú metódy a postupy, ktorými sa rozhodli túto úlohu riešit. Pre aktuálny prehl ad uvádzam najlepšie z nich. Na čele tejto sút aže stojí tím prevažne kórejských autorov, ktorých finálny systém pozostáva z fúzie 2 podsystémov. Podrobne to popisujú vo svojom článku 80 [3]. Hlavnou myšlienkou ich riešenia bolo rozšírenie 81 dátovej sady pomocou metódy Generative Adversar- 82 ial Networks (GAN), s ktorou celý systém natrénovali. 83 Ďalej použili Support Vector Machine (SVM) pre se- 84 lekciu príznakov. Ako klasifikátor zvolili v prvom 85 prípade Fully Connected Neural Network (FCNN) a v 86 druhom prípade SVM. Oba tieto systémy sa podiel ali 87 na výslednej fúzii systémov, ktorou dosiahli úspešnost %. 89 Konvolučné neurónové siete sa rozhodli použit 90 Y.Han, J.Park a K.Lee, pričom vo svojom článku [4] 91 uvádzajú, aké rôzne metódy predspracovania signálu 92 využili. Tento tím zostavil 4 rôzne systémy, s ktorými 93 dosiahol úspešnost 79.6% 80.4% a obsadil tak 2., 3., a 5. miesto v celkovom hodnotení sút aže. 95 Aj d alší tím v poradí založil svoj systém na kon- 96 volučnej neurónovej sieti. Podl a toho, čo autori píšu 97 vo svojom článku [5], špecifikum tohto riešenia je 98 metóda fúzie štandardného spektrogramu a Constant- 99 Q-Transform (CQT) spektrogramu. Na to, aby mohli 100 byt navzájom sfúzované príznaky týchto spektrogramov, 101 sú navrhnuté dva fúzovacie mechanizmy - tzv. voting 102 a SVM metódy. Lepšia z nich - fúzia založená na 103 SVM metóde - obsadila 6.miesto v celkovom poradí 104 s úspešnost ou 77.7%, 7.miesto patrí fúzii na základe 105 voting metódy, ktorá získala 74.8%. 106 Štvrtý tím v poradí [6] zostavil viaceré systémy, 107 ktorých fúzia priniesla úspešnost 74.1% a 8.miesto v 108 celkovom poradí. Navrhli systémy založené na kon- 109 volučných neurónových siet ach (CNN), systémy zalo- 110 žené na CNN super vektoroch s klasifikátorom PLDA, 111 systém založený na GMM super vektoroch a systém 112 doprednej neurónovej siete so súborom akustických 113 príznakov. Vo svojom článku [6] neuviedli úspešnosti 114 jednotlivých subsystémov, iba úspešnost fúzovaných 115 systémov. 116 Tím z rakúskej univerzity v Linzi [7], ktorý vyhral 117 sút až v roku 2016, obsadil 9.miesto s úspešnost ou % na evaluačných dátach s fúziou i-vector systému 119 a konvolučnej neurónovej siete. Okrem fúzie tento 120 tím odovzdával aj samostatný i-vector systém, ktorý 121 dosiahol 68.7% a obsadil 20.miesto v celkovom poradí Teoretický základ 123 Vo svojej práci používam k riešeniu dva prístupy, pričom 124 oba využívajú MFCC príznaky: Gaussovský klasifikátor pre každú triedu sa 126 natrénuje GMM (popis GMM v nasledujúcej 127 kapitole), pri vyhodnotení zist ujeme ako GMM 128 danej triedy pasuje na testovaciu nahrávku 129

3 Obrázok 2. Graf výsledkov zúčastnených systémov sút aže DCASE 2017 [2]. Modrý stĺpec znázorňuje baseline systém poskytnutý autormi sút aže i-vector je nízkorozmerný popis celej nahrávky, ktorý je klasifikovaný Gaussovským klasifikátorom (jedna Gaussovka pre triedu) 3.1 Gaussian Mixture Model V úlohách zaoberajúcich sa automatickým rozpoznaním reči sa rozloženie akustických príznakových vektorov modeluje často pomocou zmesi Gaussovských (normálnych) rozložení (angl. Gaussian Mixture Models - GMM). Táto zmes predstavuje model tvorený váženou kombináciou Gaussovských rozložení charakterizovaných určitou váhou, vektorom stredných hodnôt a kovariančnou maticou, ako píše aj Ing. Jan Silovský vo svojej práci [8]. 3.2 i-vector i-vector predstavuje elegantný spôsob transformácie viac dimenzionálnych vstupných dát na menej dimenzionálny vektor príznakov, pričom zachováva väčšinu pôvodnej informácie [9]. Táto technika bola pôvodne inšpirovaná frameworkom Joint Factor Analysis, ktorý bol uvedený v [10]. Hlavnou myšlienkou je, že GMM supervektor s, ktorý zret azuje GMM vektory stredných hodnôt, môže byt modelovaný nasledovne: s = m + Tw (1) kde m je supervektor stredných hodnôt modelu UBM GMM, T je matica reprezentujúca bázy spájajúce podpriestor s dôležitou variabilitou v priestore supervektoru stredných hodnôt, a w je viazaná premenná so štandardnou normálnou distribúciou. 3.3 Lineárny Gaussovský klasifikátor Vektory vypovedajúce o úrovni skóre (napríklad i- vectory) sú modelované tak, že majú zdiel anú kovarianciu cez všetky triedy a zvlášt meany/priemery pre každú triedu. Tento jednoduchý lineárny klasi- 159 fikátor sa dá použit na klasifikáciu i-vectorov i na 160 fúziu niekol kých systémov Dataset TUT Acoustic scenes Pre túto úlohu je určený dataset TUT Acoustic scenes Obsahuje nahrávky z rozličných akustických 164 prostredí, pričom každá z nich bolo nahrávaná v inej 165 lokalite. Jedná sa o 15 rôznych akustických prostredí, 166 ktoré boli spomínané v úvodnej kapitole. Audio dáta 167 boli nahrávané ako stereo so vzorkovacou frekvenciou kHz a s 24bitovou presnost ou. 169 Pôvodné 3-5 minútové nahrávky autori rozdelili na sekundové segmenty. Každý segment predstavuje 171 osobitný súbor. Dataset sa skladá z dvoch častí: 172 Development dataset - pozostáva z 312 seg- 173 mentov pre každé z 15 prostredí, čo je 52 minút 174 audia. 175 Evaluation dataset - obsahuje nahrávky z rov- 176 nakých prostredí, no z iných geografických loka- 177 lít. Pre každé prostredie je k dispozícii 108 seg- 178 mentov, čo je 18 minút audia. 179 Development dataset dohromady obsahuje 13 hodín 180 audio nahrávok v 4680 segmentoch (súboroch). V tejto 181 práci som ho použil na trénovanie GMM systému a 182 i-vector systému. 183 Evaluation dataset pozostáva zo 4 hodín a 30 minút 184 audia rozdeleného do 1620 segmentov (súborov). Tento 185 dataset je použitý na reportovanie výsledkov Experimenty 187 V tejto kapitole uvádzam všetky experimenty, ktoré 188 som v tejto práci vykonal. Budú spomínané tak nas- 189 tavenia jednotlivých systémov ako aj ich výsledky. 190 Týka sa to GMM systému, i-vector systému a taktiež 191 fúzie týchto dvoch systémov. 192

4 Hlavné experimenty skúmajú nastavenie MFCC koeficientov, vzorkovacej frekvencie signálu a vel kosti klasifikátorov (počet Gaussoviek a vel kost i-vectoru) a ich vplyv na výslednú úspešnost systému. 5.1 GMM Táto kapitola popisuje experimenty s nastavením príznakov a parametrov GMM systému samotného, ktoré mohli ovplyvnit úspešnost finálneho systému: Počet Gaussoviek Počet MFCC koeficientov Normalizácia MFCC koeficientov Nultý MFCC koeficient (C0) Delta a doubledelta koeficienty Vzorkovacia frekvencia signálu Vplyv počtu Gaussoviek na úspešnost systému zobrazuje tabul ka 1. Najlepší výsledok dosiahol systém pri 128 Gaussovkách a preto v d alších experimentoch figuruje práve tento počet Gaussoviek. Tabul ka 1. Vplyv počtu Gaussoviek na úspešnost systému Počet Gaussoviek Úspešnost [%] Ďalším skúmaným parametrom bol počet MFCC koeficientov. Tabul ka 2 zobrazuje výsledky tohto experimentu. Najlepšie sa ukázalo použitie 19 a 20 MFCC koeficientov. Do d alších experimentov som teda bral do úvahy 20 MFCC koeficientov. Tabul ka 2. Vplyv počtu MFCC koeficientov na úspešnost systému. Počet koeficientov Úspešnost [%] Ďalší experiment odzrkadl uje vplyv normalizácie MFCC koeficientov na úspešnost systému. Detailnejšie výsledky možno nájst v tabul ke 3. Ako z tabul ky vyplýva, najlepšie sa v tomto prípade javia koeficienty, ktoré nie sú normalizované. Preto v d alších pozorovaniach uvažujem práve nenormalizované koeficienty. Tabul ka 3. Vplyv normalizácie MFCC koeficientov Normalizácia Úspešnost [%] Mean 33 Mean a variance 34 Žiadna 45 Zahrnutie, resp. nezahrnutie nultého MFCC ko- 225 eficientu taktiež patrí k parametrom, ktoré môžu ov- 226 plyvnit úspešnost systému. Informácie o tomto exper- 227 imente obsahuje tabul ka 4. Najúspešnejšie sa v tomto 228 prípade ukázalo zahrnút nultý koeficient C0, a preto 229 nasledujúce experimenty nultý koeficient obsahujú. 230 Tabul ka 4. Vplyv nultého koeficientu na úspešnost systému Nultý koeficient Úspešnost [%] Bez C0 45 C0 54 E (energia) 45 Nasleduje experiment, ktorý sleduje vplyv odvo- 232 dených koeficientov - tzv. delta a doubledelta koe- 233 ficientov na úspešnost systému. Z tabul ky 5 možno 234 vyvodit, že v prípade zahrnutia aj delta aj doubledelta 235 koeficientov systém dosahuje najlepšie výsledky. 236 Tabul ka 5. Vplyv priamych (P), delta (D) a doubledelta (A) koeficientov Koeficienty Úspešnost [%] P 54 P + D 56 P + D + A 56 Záverečným experimentom v prípade GMM sys- 238 tému bolo sledovanie vplyvu vzorkovacej frekvencie 239 signálu na úspešnost systému. Z tabul ky 6 sa javí na- 240 jlepšie vzorkovacia frekvencia Hz. 241 Tabul ka 6. Vplyv vzorkovacej frekvencie signálu Vzorkovacia frekvencia [Hz] Úspešnost [%] Tento systém dosiahol úspešnost 59% a je to GMM 243 systém, s ktorým som dosiahol najvyššiu úspešnost. 244 Baseline systém sút aže z roku 2016 bol založený tiež 245 na GMM, pri použití datasetu z roku 2017 bola jeho 246 úspešnost 52% na evaluačných dátach i-vector 248 Na základe skúseností z GMM klasifikátorov, ktoré 249 sú popísané v predchádzajúcej kapitole, som sa po 250 niekol kých experimentoch ustálil na nasledujúcom 251 nastavení extrakcie príznakov a predspracovaní: MFCC koeficientov + nultý koeficient C

5 Včetne delta koeficientov 32 Mel-filter bánk Vzorkovacia frekvencia nahrávok 16 khz S týmto nastavením som zist oval závislost vel kosti GMM a i-vectoru a sledoval úspešnost systému. Vzhl adom na to, že je k dispozícii málo trénovacích dát (v rámci pravidiel sút aže), snažím sa nájst bod, v ktorom sa systém začne pretrénovávat. Detailné výsledky sú v tabul ke 7. Najlepšie sa javí počet Gaussoviek okolo 512 a väčší rozmer i-vectorov pre 400 dosahuje najlepších výsledkov 68%. S vyšším počtom Gaussoviek sa úspešnost znižuje, čo znamená, že systém je už pretrénovaný z dôvodu nedostatku trénovacích dát. Najlepšie umiestnený tím sút aže, ktorý sa venoval tiež i-vector systému[7] dosiahol úspešnost 68.7%, z čoho môžme usúdit, že úspešnost tu popisovaného i-vector systému sa líši len minimálne. Tabul ka 7. Úspešnost i-vector systému [%] vzhl adom na počet Gaussovských rozložení a dimenzionalitu i-vectoru. Rozmer i-vectoru Počet Gaussoviek Fúzia Na záver som uskutočnil fúziu najlepšieho GMM systému a najlepšieho i-vector systému použitím Gaussovského lineárneho klasifikátoru. Porovnanie úspešností týchto systémov sa nachádza v tabul ke 8. Tabul ka 8. Úspešnost najlepších systémov z predošlých 2 kapitol a ich vzájomnej fúzie. Systém Úspešnost [%] GMM 59 i-vector GMM + i-vector Fúzia sa prejavila zvýšením úspešnosti systému na 69.01%, prekonala vyvinutý i-vector systém, čo potvrdzuje jej pozitívny vplyv. Toto zvýšenie úspešnosti však nebolo až tak významné, pretože je medzi jednotlivými systémami príliš vel ký rozdiel v úspešnosti. GMM systém má značne nižšiu úspešnost oproti i-vector systému na to, aby v tejto fúzii výraznejšie 282 pomohol. 283 Tabul ka 9 zobrazuje confusion maticu, ktorá de- 284 tailnejšie popisuje chovanie tohto systému. Môžme vi- 285 diet, že systém si dokázal najlepšie poradit s triedami 286 pláž, obydlie/dom a stanica metra, ktoré dokázal klasi- 287 fikovat len s minimálnou chybou. Naopak najväčší 288 problém mal systém s triedami autobus, knižnica, park 289 a električka. Sídlisko si často plietol s parkom, obchod 290 s potravinami si systém neraz splietol s autobusom. 291 Stanica metra bola viackrát zamotaná s obchodom 292 s potravinami alebo s kaviarňou. Ako obydlie/dom 293 boli často klasifikované nahrávky z knižnice a kan- 294 celárie, čo nasvedčuje, že systém sa zameriaval viac 295 na pozadie nahrávok, ktoré bolo v týchto prípadoch 296 vel mi podobné Záver 298 V tejto práci som implementoval systém pre klasi- 299 fikáciu akustického prostredia z audio nahrávky. Použil 300 som dva prístupy: GMM systém a i-vector systém. 301 Okrem toho som na záver vytvoril fúziu najlepšieho 302 GMM systému a i-vector systému. 303 Baseline systém sút aže DCASE 2017 dosiahol 304 úspešnost 61%. Môj najlepší systém, ktorým bola 305 spomínaná fúzia, dosiahol 69%, čo by znamenalo 306 umiestnenie na 20.mieste spomedzi 97 odovzdaných 307 systémov, ktoré sa sút aže zúčastnili. 308 Na základe prehl adu najlepších systémov som zis- 309 til, že autori týchto systémov často fúzovali svoje 310 systémy s neurónovými siet ami a preto by d alším 311 krokom tejto práce mohla byt práve implementácia 312 systému založeného na neurónovej sieti a následná 313 fúzia s už existujúcim napr. i-vector systémom. 314 Pod akovanie 315 Rád by som pod akoval vedúcemu mojej práce, Pavlovi 316 Matějkovi, za všetok jeho čas, za jeho priatel ský a 317 l udský prístup a za všetky cenné rady a postrehy, ktoré 318 mi poskytol. 319 Literatúra 320 [1] T. Heittola et al. Detection and Classification 321 of Acoustic Scenes and Events [Online; 322 navštívené ]. 323 [2] T. Heittola et al. Detection and Classification 324 of Acoustic Scenes and Events [Online; 325 navštívené ]. 326 [3] Seongkyu Mun, Sangwook Park, David Han, and 327 Hanseok Ko. Generative adversarial network 328 based acoustic scene training set augmentation 329

6 Tabul ka 9. Confusion matica najlepšieho systému, t.j. fúzie najlepšieho i-vector a GMM systému, ktorý dosiahol úspešnost 69.01% na evaluačných dátach. Riadky predstavujú skutočné návestia a stĺpce reprezentujú návestia predpovedané systémom. Pláž Bus Kavi Auto Cent Les Potr Dom Kniž Metr Kanc Park Sídl Vlak Elek Pláž Autobus Kaviareň Auto Centrum mesta Lesná cesta Potraviny Obydlie/Dom Knižnica Stanica metra Kancelária Park Sídlisko Vlak Električka and selection using SVM hyper-plane. Technical report, DCASE2017 Challenge, September [4] Yoonchang Han and Jeongsoo Park. Convolutional neural networks with binaural representations and background subtraction for acoustic scene classification. Technical report, DCASE2017 Challenge, September [5] Zheng Weiping, Yi Jiantao, Xing Xiaotao, Liu Xiangtao, and Peng Shaohu. Acoustic scene classification using deep convolutional neural network and multiple spectrograms fusion. Technical report, DCASE2017 Challenge, September [6] Rakib Hyder, Shabnam Ghaffarzadegan, Zhe Feng, and Taufiq Hasan. BUET bosch consortium (B2C) acoustic scene classification systems for DCASE Technical report, DCASE2017 Challenge, September [7] Bernhard Lehner, Hamid Eghbal-Zadeh, Matthias Dorfer, Filip Korzeniowski, Khaled Koutini, and Gerhard Widmer. Classifying short acoustic scenes with I-vectors and CNNs: Challenges and optimisations for the 2017 DCASE ASC task. Technical report, DCASE2017 Challenge, September [8] Jan Silovský. Generativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích. Technical report, Technická univerzita v Liberci, November [9] David González Martínez, Oldřich Plchot, L. Burget, O. Glembek, and P. Matějka. Lan- guage recognition in ivectors space. In Proceed- 361 ings of Interspeech 2011, pages , [10] P. Kenny, G. Boulianne, P. Oullet, and P. Du- 363 mouchel. Joint factor analysis versus eigenchan- 364 nels in speaker recognition. IEEE Transactions 365 on Audio, Speech, and Language Processing, (7): ,

Acoustic Scene Classification using a CNN-SuperVector system trained with Auditory and Spectrogram Image Features

INTERSPEECH 2017 August 20 24, 2017, Stockholm, Sweden Acoustic Scene Classification using a CNN-SuperVector system trained with Auditory and Spectrogram Image Features Rakib Hyder 1, Shabnam Ghaffarzadegan