Detekcia Akusticke ho Prostredia z Rec i

Size: px
Start display at page:

Download "Detekcia Akusticke ho Prostredia z Rec i"

Transcription

1 Detekcia Akusticke ho Prostredia z Rec i Matu s Dobrotka* Abstrakt Te ma tejto pra ce je klasifika cia audio nahra vky do 15 tried. C la nok popisuje 2 meto dy zaloz ene na GMM a i-vectoroch a ich vza jomnu fu ziu. Na da tach zo su t az e DCASE dosiahol najleps ı GMM syste m u spes nost 59% a ivector syste m 68%. Fu zia ty chto dvoch syste mov vy sledok es te zleps ila na 69%, c o by v dobe su t az e stac ilo na 20. miesto z 97 odovzdany ch syste mov z cele ho sveta. Kl u c ove slova : detekcia akusticke ho prostredia GMM i-vector fu zia Priloz ene materia ly: N/A *xdobro12@stud.fit.vutbr.cz, Faculty of Information Technology, Brno University of Technology U vod Zvuk nesie obrovske mnoz stvo informa cie o nas om kaz dodennom prostredı a tiez o fyzika lnych udalostiach, ktore sa v n om uskutoc n uju. Mo z me vnı mat prostredie, v ktorom sa nacha dzame (naprı klad preplnena ulica, kancela ria,...) a tiez rozpozna vat jednotlive zdroje zvukov (auto precha dzaju ce okolo, kroky l udı, apod.). Vy voj meto d spracovania signa lu, ktore su schopne automaticky extrahovat tieto informa cie, ma preto obrovsky potencia l pre ro zne aplika cie. Mo z e sa jednat naprı klad o vyhl ada vanie multime diı zaloz ene na ich audio obsahu, vytva ranie kontextovy ch mobilny ch zariadenı, robotov, automobily,... a tiez inteligentne monitorovacie syste my rozpozna vaju ce c innosti v ich okolı vyuz itı m akusticky ch informa ciı. Vzhl adom ale k tomu, z e ta to oblast es te nie je na takej u rovni, z e by bolo moz ne spol ahlivo rozpozna vat zvukove prostredia a jednotlive zdroje zvuku v realistickej zvukovej palete, kde poc ut viacere zvuky a c asto su bez ne a tiez skreslene prostredı m, je es te potrebne znac ne mnoz stvo vy skumu. Aj preto som sa rozhodol venovat pra ve tejto te me. Te ma vycha dza zo zadania medzina rodnej su t az e DCASE Challenge, ktora je popı sana v nasleduju cej kapitole. Ciel om tejto pra ce je vytvorit syste m schopny klasifikovat testovaciu nahra vku do jednej z 15 preddefinovany ch tried, ktore charakterizuju prostredie, kde bola nahra vka nahrata. Vy stiz ne taky to syste m popisuje obra zok 1. Jedna sa o ty chto 15 prostredı : Autobus Kaviaren /res taura cia Auto Centrum mesta Lesna cesta Obchod s potravinami - obchod strednej vel kosti Obydlie/dom Pla z pri jazere Kniz nica Metro stanica Kancela ria - viacero oso b, typicky pracovny den Sı dlisko/obytna oblast Vlak Elektric ka Mestsky park

2 Obrázok 1. Prehl ad systému pre klasifikáciu akustického prostredia [1] 2. DCASE challenge Týmto pojmom sa označuje celosvetová sút až organizovaná fínskou výskumnou skupinou zameranou na audio z Technickej Univerzity v Tampere. Úplný názov sút aže je Detection and Classification of Acoustic Scenes and Events. Vznikla už v roku 2013 s ciel om zvýšit vývoj v oblasti analýzy zvukov z prostredí, v ktorých sa bežne nachádzame. A to porovnávaním rozličných prístupov za použitia spoločného verejne dostupného datasetu a rovnakej vyhodnocovacej metriky. Po úspešnom úvodnom ročníku došlo v tejto sút aži k dvojročnej prestávke a v roku 2016 organizátori znovu obnovili jej priebeh. Tretí a zároveň zatial posledný ročník sa uskutočnil v roku Sút až ako taká obsahuje 4 úlohy a zúčastnit sa jej môže ktokol vek bez ohl adu na to, či sa rozhodne riešit iba jednu úlohu, alebo viacero z nich. Každá z týchto úloh je nezávislá, všetky úlohy sú vyhodnocované samostatne. Táto práca je inšpirovaná prvou z úloh, ktorej názov je Detekcia akustického prostredia, pričom som sa sústredil na ročník Obrázok 2 ukazuje kompletné výsledky zúčastnených tímov a ich systémov. Môžme vidiet, že baseline systém, ktorý bol uvol nený autormi sút aže, dosahoval úspešnost na evaluačných dátach 61% a najlepší systém až 83%. 2.1 Prehl ad výskumu Účastníci sút aže z roku 2017 vo svojich článkoch opisujú metódy a postupy, ktorými sa rozhodli túto úlohu riešit. Pre aktuálny prehl ad uvádzam najlepšie z nich. Na čele tejto sút aže stojí tím prevažne kórejských autorov, ktorých finálny systém pozostáva z fúzie 2 podsystémov. Podrobne to popisujú vo svojom článku 80 [3]. Hlavnou myšlienkou ich riešenia bolo rozšírenie 81 dátovej sady pomocou metódy Generative Adversar- 82 ial Networks (GAN), s ktorou celý systém natrénovali. 83 Ďalej použili Support Vector Machine (SVM) pre se- 84 lekciu príznakov. Ako klasifikátor zvolili v prvom 85 prípade Fully Connected Neural Network (FCNN) a v 86 druhom prípade SVM. Oba tieto systémy sa podiel ali 87 na výslednej fúzii systémov, ktorou dosiahli úspešnost %. 89 Konvolučné neurónové siete sa rozhodli použit 90 Y.Han, J.Park a K.Lee, pričom vo svojom článku [4] 91 uvádzajú, aké rôzne metódy predspracovania signálu 92 využili. Tento tím zostavil 4 rôzne systémy, s ktorými 93 dosiahol úspešnost 79.6% 80.4% a obsadil tak 2., 3., a 5. miesto v celkovom hodnotení sút aže. 95 Aj d alší tím v poradí založil svoj systém na kon- 96 volučnej neurónovej sieti. Podl a toho, čo autori píšu 97 vo svojom článku [5], špecifikum tohto riešenia je 98 metóda fúzie štandardného spektrogramu a Constant- 99 Q-Transform (CQT) spektrogramu. Na to, aby mohli 100 byt navzájom sfúzované príznaky týchto spektrogramov, 101 sú navrhnuté dva fúzovacie mechanizmy - tzv. voting 102 a SVM metódy. Lepšia z nich - fúzia založená na 103 SVM metóde - obsadila 6.miesto v celkovom poradí 104 s úspešnost ou 77.7%, 7.miesto patrí fúzii na základe 105 voting metódy, ktorá získala 74.8%. 106 Štvrtý tím v poradí [6] zostavil viaceré systémy, 107 ktorých fúzia priniesla úspešnost 74.1% a 8.miesto v 108 celkovom poradí. Navrhli systémy založené na kon- 109 volučných neurónových siet ach (CNN), systémy zalo- 110 žené na CNN super vektoroch s klasifikátorom PLDA, 111 systém založený na GMM super vektoroch a systém 112 doprednej neurónovej siete so súborom akustických 113 príznakov. Vo svojom článku [6] neuviedli úspešnosti 114 jednotlivých subsystémov, iba úspešnost fúzovaných 115 systémov. 116 Tím z rakúskej univerzity v Linzi [7], ktorý vyhral 117 sút až v roku 2016, obsadil 9.miesto s úspešnost ou % na evaluačných dátach s fúziou i-vector systému 119 a konvolučnej neurónovej siete. Okrem fúzie tento 120 tím odovzdával aj samostatný i-vector systém, ktorý 121 dosiahol 68.7% a obsadil 20.miesto v celkovom poradí Teoretický základ 123 Vo svojej práci používam k riešeniu dva prístupy, pričom 124 oba využívajú MFCC príznaky: Gaussovský klasifikátor pre každú triedu sa 126 natrénuje GMM (popis GMM v nasledujúcej 127 kapitole), pri vyhodnotení zist ujeme ako GMM 128 danej triedy pasuje na testovaciu nahrávku 129

3 Obrázok 2. Graf výsledkov zúčastnených systémov sút aže DCASE 2017 [2]. Modrý stĺpec znázorňuje baseline systém poskytnutý autormi sút aže i-vector je nízkorozmerný popis celej nahrávky, ktorý je klasifikovaný Gaussovským klasifikátorom (jedna Gaussovka pre triedu) 3.1 Gaussian Mixture Model V úlohách zaoberajúcich sa automatickým rozpoznaním reči sa rozloženie akustických príznakových vektorov modeluje často pomocou zmesi Gaussovských (normálnych) rozložení (angl. Gaussian Mixture Models - GMM). Táto zmes predstavuje model tvorený váženou kombináciou Gaussovských rozložení charakterizovaných určitou váhou, vektorom stredných hodnôt a kovariančnou maticou, ako píše aj Ing. Jan Silovský vo svojej práci [8]. 3.2 i-vector i-vector predstavuje elegantný spôsob transformácie viac dimenzionálnych vstupných dát na menej dimenzionálny vektor príznakov, pričom zachováva väčšinu pôvodnej informácie [9]. Táto technika bola pôvodne inšpirovaná frameworkom Joint Factor Analysis, ktorý bol uvedený v [10]. Hlavnou myšlienkou je, že GMM supervektor s, ktorý zret azuje GMM vektory stredných hodnôt, môže byt modelovaný nasledovne: s = m + Tw (1) kde m je supervektor stredných hodnôt modelu UBM GMM, T je matica reprezentujúca bázy spájajúce podpriestor s dôležitou variabilitou v priestore supervektoru stredných hodnôt, a w je viazaná premenná so štandardnou normálnou distribúciou. 3.3 Lineárny Gaussovský klasifikátor Vektory vypovedajúce o úrovni skóre (napríklad i- vectory) sú modelované tak, že majú zdiel anú kovarianciu cez všetky triedy a zvlášt meany/priemery pre každú triedu. Tento jednoduchý lineárny klasi- 159 fikátor sa dá použit na klasifikáciu i-vectorov i na 160 fúziu niekol kých systémov Dataset TUT Acoustic scenes Pre túto úlohu je určený dataset TUT Acoustic scenes Obsahuje nahrávky z rozličných akustických 164 prostredí, pričom každá z nich bolo nahrávaná v inej 165 lokalite. Jedná sa o 15 rôznych akustických prostredí, 166 ktoré boli spomínané v úvodnej kapitole. Audio dáta 167 boli nahrávané ako stereo so vzorkovacou frekvenciou kHz a s 24bitovou presnost ou. 169 Pôvodné 3-5 minútové nahrávky autori rozdelili na sekundové segmenty. Každý segment predstavuje 171 osobitný súbor. Dataset sa skladá z dvoch častí: 172 Development dataset - pozostáva z 312 seg- 173 mentov pre každé z 15 prostredí, čo je 52 minút 174 audia. 175 Evaluation dataset - obsahuje nahrávky z rov- 176 nakých prostredí, no z iných geografických loka- 177 lít. Pre každé prostredie je k dispozícii 108 seg- 178 mentov, čo je 18 minút audia. 179 Development dataset dohromady obsahuje 13 hodín 180 audio nahrávok v 4680 segmentoch (súboroch). V tejto 181 práci som ho použil na trénovanie GMM systému a 182 i-vector systému. 183 Evaluation dataset pozostáva zo 4 hodín a 30 minút 184 audia rozdeleného do 1620 segmentov (súborov). Tento 185 dataset je použitý na reportovanie výsledkov Experimenty 187 V tejto kapitole uvádzam všetky experimenty, ktoré 188 som v tejto práci vykonal. Budú spomínané tak nas- 189 tavenia jednotlivých systémov ako aj ich výsledky. 190 Týka sa to GMM systému, i-vector systému a taktiež 191 fúzie týchto dvoch systémov. 192

4 Hlavné experimenty skúmajú nastavenie MFCC koeficientov, vzorkovacej frekvencie signálu a vel kosti klasifikátorov (počet Gaussoviek a vel kost i-vectoru) a ich vplyv na výslednú úspešnost systému. 5.1 GMM Táto kapitola popisuje experimenty s nastavením príznakov a parametrov GMM systému samotného, ktoré mohli ovplyvnit úspešnost finálneho systému: Počet Gaussoviek Počet MFCC koeficientov Normalizácia MFCC koeficientov Nultý MFCC koeficient (C0) Delta a doubledelta koeficienty Vzorkovacia frekvencia signálu Vplyv počtu Gaussoviek na úspešnost systému zobrazuje tabul ka 1. Najlepší výsledok dosiahol systém pri 128 Gaussovkách a preto v d alších experimentoch figuruje práve tento počet Gaussoviek. Tabul ka 1. Vplyv počtu Gaussoviek na úspešnost systému Počet Gaussoviek Úspešnost [%] Ďalším skúmaným parametrom bol počet MFCC koeficientov. Tabul ka 2 zobrazuje výsledky tohto experimentu. Najlepšie sa ukázalo použitie 19 a 20 MFCC koeficientov. Do d alších experimentov som teda bral do úvahy 20 MFCC koeficientov. Tabul ka 2. Vplyv počtu MFCC koeficientov na úspešnost systému. Počet koeficientov Úspešnost [%] Ďalší experiment odzrkadl uje vplyv normalizácie MFCC koeficientov na úspešnost systému. Detailnejšie výsledky možno nájst v tabul ke 3. Ako z tabul ky vyplýva, najlepšie sa v tomto prípade javia koeficienty, ktoré nie sú normalizované. Preto v d alších pozorovaniach uvažujem práve nenormalizované koeficienty. Tabul ka 3. Vplyv normalizácie MFCC koeficientov Normalizácia Úspešnost [%] Mean 33 Mean a variance 34 Žiadna 45 Zahrnutie, resp. nezahrnutie nultého MFCC ko- 225 eficientu taktiež patrí k parametrom, ktoré môžu ov- 226 plyvnit úspešnost systému. Informácie o tomto exper- 227 imente obsahuje tabul ka 4. Najúspešnejšie sa v tomto 228 prípade ukázalo zahrnút nultý koeficient C0, a preto 229 nasledujúce experimenty nultý koeficient obsahujú. 230 Tabul ka 4. Vplyv nultého koeficientu na úspešnost systému Nultý koeficient Úspešnost [%] Bez C0 45 C0 54 E (energia) 45 Nasleduje experiment, ktorý sleduje vplyv odvo- 232 dených koeficientov - tzv. delta a doubledelta koe- 233 ficientov na úspešnost systému. Z tabul ky 5 možno 234 vyvodit, že v prípade zahrnutia aj delta aj doubledelta 235 koeficientov systém dosahuje najlepšie výsledky. 236 Tabul ka 5. Vplyv priamych (P), delta (D) a doubledelta (A) koeficientov Koeficienty Úspešnost [%] P 54 P + D 56 P + D + A 56 Záverečným experimentom v prípade GMM sys- 238 tému bolo sledovanie vplyvu vzorkovacej frekvencie 239 signálu na úspešnost systému. Z tabul ky 6 sa javí na- 240 jlepšie vzorkovacia frekvencia Hz. 241 Tabul ka 6. Vplyv vzorkovacej frekvencie signálu Vzorkovacia frekvencia [Hz] Úspešnost [%] Tento systém dosiahol úspešnost 59% a je to GMM 243 systém, s ktorým som dosiahol najvyššiu úspešnost. 244 Baseline systém sút aže z roku 2016 bol založený tiež 245 na GMM, pri použití datasetu z roku 2017 bola jeho 246 úspešnost 52% na evaluačných dátach i-vector 248 Na základe skúseností z GMM klasifikátorov, ktoré 249 sú popísané v predchádzajúcej kapitole, som sa po 250 niekol kých experimentoch ustálil na nasledujúcom 251 nastavení extrakcie príznakov a predspracovaní: MFCC koeficientov + nultý koeficient C

5 Včetne delta koeficientov 32 Mel-filter bánk Vzorkovacia frekvencia nahrávok 16 khz S týmto nastavením som zist oval závislost vel kosti GMM a i-vectoru a sledoval úspešnost systému. Vzhl adom na to, že je k dispozícii málo trénovacích dát (v rámci pravidiel sút aže), snažím sa nájst bod, v ktorom sa systém začne pretrénovávat. Detailné výsledky sú v tabul ke 7. Najlepšie sa javí počet Gaussoviek okolo 512 a väčší rozmer i-vectorov pre 400 dosahuje najlepších výsledkov 68%. S vyšším počtom Gaussoviek sa úspešnost znižuje, čo znamená, že systém je už pretrénovaný z dôvodu nedostatku trénovacích dát. Najlepšie umiestnený tím sút aže, ktorý sa venoval tiež i-vector systému[7] dosiahol úspešnost 68.7%, z čoho môžme usúdit, že úspešnost tu popisovaného i-vector systému sa líši len minimálne. Tabul ka 7. Úspešnost i-vector systému [%] vzhl adom na počet Gaussovských rozložení a dimenzionalitu i-vectoru. Rozmer i-vectoru Počet Gaussoviek Fúzia Na záver som uskutočnil fúziu najlepšieho GMM systému a najlepšieho i-vector systému použitím Gaussovského lineárneho klasifikátoru. Porovnanie úspešností týchto systémov sa nachádza v tabul ke 8. Tabul ka 8. Úspešnost najlepších systémov z predošlých 2 kapitol a ich vzájomnej fúzie. Systém Úspešnost [%] GMM 59 i-vector GMM + i-vector Fúzia sa prejavila zvýšením úspešnosti systému na 69.01%, prekonala vyvinutý i-vector systém, čo potvrdzuje jej pozitívny vplyv. Toto zvýšenie úspešnosti však nebolo až tak významné, pretože je medzi jednotlivými systémami príliš vel ký rozdiel v úspešnosti. GMM systém má značne nižšiu úspešnost oproti i-vector systému na to, aby v tejto fúzii výraznejšie 282 pomohol. 283 Tabul ka 9 zobrazuje confusion maticu, ktorá de- 284 tailnejšie popisuje chovanie tohto systému. Môžme vi- 285 diet, že systém si dokázal najlepšie poradit s triedami 286 pláž, obydlie/dom a stanica metra, ktoré dokázal klasi- 287 fikovat len s minimálnou chybou. Naopak najväčší 288 problém mal systém s triedami autobus, knižnica, park 289 a električka. Sídlisko si často plietol s parkom, obchod 290 s potravinami si systém neraz splietol s autobusom. 291 Stanica metra bola viackrát zamotaná s obchodom 292 s potravinami alebo s kaviarňou. Ako obydlie/dom 293 boli často klasifikované nahrávky z knižnice a kan- 294 celárie, čo nasvedčuje, že systém sa zameriaval viac 295 na pozadie nahrávok, ktoré bolo v týchto prípadoch 296 vel mi podobné Záver 298 V tejto práci som implementoval systém pre klasi- 299 fikáciu akustického prostredia z audio nahrávky. Použil 300 som dva prístupy: GMM systém a i-vector systém. 301 Okrem toho som na záver vytvoril fúziu najlepšieho 302 GMM systému a i-vector systému. 303 Baseline systém sút aže DCASE 2017 dosiahol 304 úspešnost 61%. Môj najlepší systém, ktorým bola 305 spomínaná fúzia, dosiahol 69%, čo by znamenalo 306 umiestnenie na 20.mieste spomedzi 97 odovzdaných 307 systémov, ktoré sa sút aže zúčastnili. 308 Na základe prehl adu najlepších systémov som zis- 309 til, že autori týchto systémov často fúzovali svoje 310 systémy s neurónovými siet ami a preto by d alším 311 krokom tejto práce mohla byt práve implementácia 312 systému založeného na neurónovej sieti a následná 313 fúzia s už existujúcim napr. i-vector systémom. 314 Pod akovanie 315 Rád by som pod akoval vedúcemu mojej práce, Pavlovi 316 Matějkovi, za všetok jeho čas, za jeho priatel ský a 317 l udský prístup a za všetky cenné rady a postrehy, ktoré 318 mi poskytol. 319 Literatúra 320 [1] T. Heittola et al. Detection and Classification 321 of Acoustic Scenes and Events [Online; 322 navštívené ]. 323 [2] T. Heittola et al. Detection and Classification 324 of Acoustic Scenes and Events [Online; 325 navštívené ]. 326 [3] Seongkyu Mun, Sangwook Park, David Han, and 327 Hanseok Ko. Generative adversarial network 328 based acoustic scene training set augmentation 329

6 Tabul ka 9. Confusion matica najlepšieho systému, t.j. fúzie najlepšieho i-vector a GMM systému, ktorý dosiahol úspešnost 69.01% na evaluačných dátach. Riadky predstavujú skutočné návestia a stĺpce reprezentujú návestia predpovedané systémom. Pláž Bus Kavi Auto Cent Les Potr Dom Kniž Metr Kanc Park Sídl Vlak Elek Pláž Autobus Kaviareň Auto Centrum mesta Lesná cesta Potraviny Obydlie/Dom Knižnica Stanica metra Kancelária Park Sídlisko Vlak Električka and selection using SVM hyper-plane. Technical report, DCASE2017 Challenge, September [4] Yoonchang Han and Jeongsoo Park. Convolutional neural networks with binaural representations and background subtraction for acoustic scene classification. Technical report, DCASE2017 Challenge, September [5] Zheng Weiping, Yi Jiantao, Xing Xiaotao, Liu Xiangtao, and Peng Shaohu. Acoustic scene classification using deep convolutional neural network and multiple spectrograms fusion. Technical report, DCASE2017 Challenge, September [6] Rakib Hyder, Shabnam Ghaffarzadegan, Zhe Feng, and Taufiq Hasan. BUET bosch consortium (B2C) acoustic scene classification systems for DCASE Technical report, DCASE2017 Challenge, September [7] Bernhard Lehner, Hamid Eghbal-Zadeh, Matthias Dorfer, Filip Korzeniowski, Khaled Koutini, and Gerhard Widmer. Classifying short acoustic scenes with I-vectors and CNNs: Challenges and optimisations for the 2017 DCASE ASC task. Technical report, DCASE2017 Challenge, September [8] Jan Silovský. Generativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích. Technical report, Technická univerzita v Liberci, November [9] David González Martínez, Oldřich Plchot, L. Burget, O. Glembek, and P. Matějka. Lan- guage recognition in ivectors space. In Proceed- 361 ings of Interspeech 2011, pages , [10] P. Kenny, G. Boulianne, P. Oullet, and P. Du- 363 mouchel. Joint factor analysis versus eigenchan- 364 nels in speaker recognition. IEEE Transactions 365 on Audio, Speech, and Language Processing, (7): ,

Acoustic Scene Classification using a CNN-SuperVector system trained with Auditory and Spectrogram Image Features

Acoustic Scene Classification using a CNN-SuperVector system trained with Auditory and Spectrogram Image Features INTERSPEECH 2017 August 20 24, 2017, Stockholm, Sweden Acoustic Scene Classification using a CNN-SuperVector system trained with Auditory and Spectrogram Image Features Rakib Hyder 1, Shabnam Ghaffarzadegan

More information

A L A BA M A L A W R E V IE W

A L A BA M A L A W R E V IE W A L A BA M A L A W R E V IE W Volume 52 Fall 2000 Number 1 B E F O R E D I S A B I L I T Y C I V I L R I G HT S : C I V I L W A R P E N S I O N S A N D TH E P O L I T I C S O F D I S A B I L I T Y I N

More information

P a g e 5 1 of R e p o r t P B 4 / 0 9

P a g e 5 1 of R e p o r t P B 4 / 0 9 P a g e 5 1 of R e p o r t P B 4 / 0 9 J A R T a l s o c o n c l u d e d t h a t a l t h o u g h t h e i n t e n t o f N e l s o n s r e h a b i l i t a t i o n p l a n i s t o e n h a n c e c o n n e

More information

Ing. Tomasz Kanik. doc. RNDr. Štefan Peško, CSc.

Ing. Tomasz Kanik. doc. RNDr. Štefan Peško, CSc. Ing. Tomasz Kanik Školiteľ: doc. RNDr. Štefan Peško, CSc. Pracovisko: Študijný program: KMMOA, FRI, ŽU 9.2.9 Aplikovaná informatika 1 identifikácia problémovej skupiny pacientov, zlepšenie kvality rozhodovacích

More information

Segmentace textury. Jan Kybic

Segmentace textury. Jan Kybic Segmentace textury Případová studie Jan Kybic Zadání Mikroskopický obrázek segmentujte do tříd: Příčná vlákna Podélná vlákna Matrice Trhliny Zvolená metoda Deskriptorový popis Učení s učitelem ML klasifikátor

More information

Speaker recognition by means of Deep Belief Networks

Speaker recognition by means of Deep Belief Networks Speaker recognition by means of Deep Belief Networks Vasileios Vasilakakis, Sandro Cumani, Pietro Laface, Politecnico di Torino, Italy {first.lastname}@polito.it 1. Abstract Most state of the art speaker

More information

Multiclass Discriminative Training of i-vector Language Recognition

Multiclass Discriminative Training of i-vector Language Recognition Odyssey 214: The Speaker and Language Recognition Workshop 16-19 June 214, Joensuu, Finland Multiclass Discriminative Training of i-vector Language Recognition Alan McCree Human Language Technology Center

More information

NONNEGATIVE FEATURE LEARNING METHODS FOR ACOUSTIC SCENE CLASSIFICATION

NONNEGATIVE FEATURE LEARNING METHODS FOR ACOUSTIC SCENE CLASSIFICATION NONNEGATIVE FEATURE LEARNING METHODS FOR ACOUSTIC SCENE CLASSIFICATION Victor Bisot, Romain Serizel, Slim Essid, Gaël Richard LTCI, Télécom ParisTech, Université Paris Saclay, F-75013, Paris, France Université

More information

Solution Methods for Beam and Frames on Elastic Foundation Using the Finite Element Method

Solution Methods for Beam and Frames on Elastic Foundation Using the Finite Element Method Solution Methods for Beam and Frames on Elastic Foundation Using the Finite Element Method Spôsoby riešenie nosníkov a rámov na pružnom podklade pomocou metódy konečných prvkov Roland JANČO 1 Abstract:

More information

VYHLÁSENIE O PARAMETROCH. č SK

VYHLÁSENIE O PARAMETROCH. č SK VYHLÁSENIE O PARAMETROCH č. 0048 SK 1. Jedi eč ý ide tifikač ý k d typu výro ku: rá ová h oždi ka fischer SXR/SXRL 2. )a ýšľa é použitie/použitia: Produkt Plastové kotvy pre použitie v betóne a murive

More information

Support Vector Machines using GMM Supervectors for Speaker Verification

Support Vector Machines using GMM Supervectors for Speaker Verification 1 Support Vector Machines using GMM Supervectors for Speaker Verification W. M. Campbell, D. E. Sturim, D. A. Reynolds MIT Lincoln Laboratory 244 Wood Street Lexington, MA 02420 Corresponding author e-mail:

More information

RARE SOUND EVENT DETECTION USING 1D CONVOLUTIONAL RECURRENT NEURAL NETWORKS

RARE SOUND EVENT DETECTION USING 1D CONVOLUTIONAL RECURRENT NEURAL NETWORKS RARE SOUND EVENT DETECTION USING 1D CONVOLUTIONAL RECURRENT NEURAL NETWORKS Hyungui Lim 1, Jeongsoo Park 1,2, Kyogu Lee 2, Yoonchang Han 1 1 Cochlear.ai, Seoul, Korea 2 Music and Audio Research Group,

More information

VYHLÁSENIE O PARAMETROCH. č SK. Predpoklada é použitie. stave ý h častí ako o kladov a stropov, pozri prílohu, najmä prílohy B 1 - B 8

VYHLÁSENIE O PARAMETROCH. č SK. Predpoklada é použitie. stave ý h častí ako o kladov a stropov, pozri prílohu, najmä prílohy B 1 - B 8 VYHLÁSENIE O PARAMETROCH č. 0007 SK 1. Jedi eč ý ide tifikač ý k d typu výro ku: i jektáž y systé FIS V 2. )a ýšľa é použitie/použitia: Produkt O eľová kotva pre použitie v et e k upev e iu ťažký h systé

More information

Jádrové odhady gradientu regresní funkce

Jádrové odhady gradientu regresní funkce Monika Kroupová Ivana Horová Jan Koláček Ústav matematiky a statistiky, Masarykova univerzita, Brno ROBUST 2018 Osnova Regresní model a odhad gradientu Metody pro odhad vyhlazovací matice Simulace Závěr

More information

Use precise language and domain-specific vocabulary to inform about or explain the topic. CCSS.ELA-LITERACY.WHST D

Use precise language and domain-specific vocabulary to inform about or explain the topic. CCSS.ELA-LITERACY.WHST D Lesson eight What are characteristics of chemical reactions? Science Constructing Explanations, Engaging in Argument and Obtaining, Evaluating, and Communicating Information ENGLISH LANGUAGE ARTS Reading

More information

Session Variability Compensation in Automatic Speaker Recognition

Session Variability Compensation in Automatic Speaker Recognition Session Variability Compensation in Automatic Speaker Recognition Javier González Domínguez VII Jornadas MAVIR Universidad Autónoma de Madrid November 2012 Outline 1. The Inter-session Variability Problem

More information

I n t e r ku l t ú r n a ko mu n i ká c i a na hodine anglické h o jazyka. p r ostrední c tvom použitia PC

I n t e r ku l t ú r n a ko mu n i ká c i a na hodine anglické h o jazyka. p r ostrední c tvom použitia PC I n t e r ku l t ú r n a ko mu n i ká c i a na hodine anglické h o jazyka p r ostrední c tvom použitia PC P e t r a J e s e n s k á A n o t á c i a V p r í s p e v k u j e r o z p r a c o v a n é š p e

More information

T h e C S E T I P r o j e c t

T h e C S E T I P r o j e c t T h e P r o j e c t T H E P R O J E C T T A B L E O F C O N T E N T S A r t i c l e P a g e C o m p r e h e n s i v e A s s es s m e n t o f t h e U F O / E T I P h e n o m e n o n M a y 1 9 9 1 1 E T

More information

Kapitola S5. Skrutkovica na rotačnej ploche

Kapitola S5. Skrutkovica na rotačnej ploche Kapitola S5 Skrutkovica na rotačnej ploche Nech je rotačná plocha určená osou rotácie o a meridiánom m. Skrutkový pohyb je pohyb zložený z rovnomerného rotačného pohybu okolo osi o a z rovnomerného translačného

More information

Front-End Factor Analysis For Speaker Verification

Front-End Factor Analysis For Speaker Verification IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING Front-End Factor Analysis For Speaker Verification Najim Dehak, Patrick Kenny, Réda Dehak, Pierre Dumouchel, and Pierre Ouellet, Abstract This

More information

OH BOY! Story. N a r r a t iv e a n d o bj e c t s th ea t e r Fo r a l l a g e s, fr o m th e a ge of 9

OH BOY! Story. N a r r a t iv e a n d o bj e c t s th ea t e r Fo r a l l a g e s, fr o m th e a ge of 9 OH BOY! O h Boy!, was or igin a lly cr eat ed in F r en ch an d was a m a jor s u cc ess on t h e Fr en ch st a ge f or young au di enc es. It h a s b een s een by ap pr ox i ma t ely 175,000 sp ect at

More information

Applying Phonetic Matching Algorithm to Tongue Twister Retrieval in Japanese

Applying Phonetic Matching Algorithm to Tongue Twister Retrieval in Japanese 1 1 n-gram 2 Applying Phonetic Matching Algorithm to Tongue Twister Retrieval in Japanese Michiko Yasukawa 1 and Hidetoshi Yokoo 1 In this paper, we propose a Japanese phonetic matching algorithm for tongue

More information

Transactions of the VŠB Technical University of Ostrava, Mechanical Series No. 2, 2010, vol. LVI article No. 1776

Transactions of the VŠB Technical University of Ostrava, Mechanical Series No. 2, 2010, vol. LVI article No. 1776 Transactions of the VŠB Technical University of Ostrava, Mechanical Series o. 2, 200, vol. LVI article o. 776 Zuzana ADRÁSSYOVÁ *, Martin KOTUS ** EVALUATIO OF CC MILLIG MACHIE CAPABILITY FOR TRASMISSIOS

More information

Use precise language and domain-specific vocabulary to inform about or explain the topic. CCSS.ELA-LITERACY.WHST D

Use precise language and domain-specific vocabulary to inform about or explain the topic. CCSS.ELA-LITERACY.WHST D Lesson seven What is a chemical reaction? Science Constructing Explanations, Engaging in Argument and Obtaining, Evaluating, and Communicating Information ENGLISH LANGUAGE ARTS Reading Informational Text,

More information

Detection of Overlapping Acoustic Events Based on NMF with Shared Basis Vectors

Detection of Overlapping Acoustic Events Based on NMF with Shared Basis Vectors Detection of Overlapping Acoustic Events Based on NMF with Shared Basis Vectors Kazumasa Yamamoto Department of Computer Science Chubu University Kasugai, Aichi, Japan Email: yamamoto@cs.chubu.ac.jp Chikara

More information

Deep Learning for Speech Recognition. Hung-yi Lee

Deep Learning for Speech Recognition. Hung-yi Lee Deep Learning for Speech Recognition Hung-yi Lee Outline Conventional Speech Recognition How to use Deep Learning in acoustic modeling? Why Deep Learning? Speaker Adaptation Multi-task Deep Learning New

More information

Speaker Representation and Verification Part II. by Vasileios Vasilakakis

Speaker Representation and Verification Part II. by Vasileios Vasilakakis Speaker Representation and Verification Part II by Vasileios Vasilakakis Outline -Approaches of Neural Networks in Speaker/Speech Recognition -Feed-Forward Neural Networks -Training with Back-propagation

More information

Robust Sound Event Detection in Continuous Audio Environments

Robust Sound Event Detection in Continuous Audio Environments Robust Sound Event Detection in Continuous Audio Environments Haomin Zhang 1, Ian McLoughlin 2,1, Yan Song 1 1 National Engineering Laboratory of Speech and Language Information Processing The University

More information

SPEECH recognition systems based on hidden Markov

SPEECH recognition systems based on hidden Markov IEEE SIGNAL PROCESSING LETTERS, VOL. X, NO. X, 2014 1 Probabilistic Linear Discriminant Analysis for Acoustic Modelling Liang Lu, Member, IEEE and Steve Renals, Fellow, IEEE Abstract In this letter, we

More information

Modified-prior PLDA and Score Calibration for Duration Mismatch Compensation in Speaker Recognition System

Modified-prior PLDA and Score Calibration for Duration Mismatch Compensation in Speaker Recognition System INERSPEECH 2015 Modified-prior PLDA and Score Calibration for Duration Mismatch Compensation in Speaker Recognition System QingYang Hong 1, Lin Li 1, Ming Li 2, Ling Huang 1, Lihong Wan 1, Jun Zhang 1

More information

Apprentissage, réseaux de neurones et modèles graphiques (RCP209) Neural Networks and Deep Learning

Apprentissage, réseaux de neurones et modèles graphiques (RCP209) Neural Networks and Deep Learning Apprentissage, réseaux de neurones et modèles graphiques (RCP209) Neural Networks and Deep Learning Nicolas Thome Prenom.Nom@cnam.fr http://cedric.cnam.fr/vertigo/cours/ml2/ Département Informatique Conservatoire

More information

Automatic Speech Recognition (CS753)

Automatic Speech Recognition (CS753) Automatic Speech Recognition (CS753) Lecture 12: Acoustic Feature Extraction for ASR Instructor: Preethi Jyothi Feb 13, 2017 Speech Signal Analysis Generate discrete samples A frame Need to focus on short

More information

ORTHOGONALITY-REGULARIZED MASKED NMF FOR LEARNING ON WEAKLY LABELED AUDIO DATA. Iwona Sobieraj, Lucas Rencker, Mark D. Plumbley

ORTHOGONALITY-REGULARIZED MASKED NMF FOR LEARNING ON WEAKLY LABELED AUDIO DATA. Iwona Sobieraj, Lucas Rencker, Mark D. Plumbley ORTHOGONALITY-REGULARIZED MASKED NMF FOR LEARNING ON WEAKLY LABELED AUDIO DATA Iwona Sobieraj, Lucas Rencker, Mark D. Plumbley University of Surrey Centre for Vision Speech and Signal Processing Guildford,

More information

Noise Compensation for Subspace Gaussian Mixture Models

Noise Compensation for Subspace Gaussian Mixture Models Noise ompensation for ubspace Gaussian Mixture Models Liang Lu University of Edinburgh Joint work with KK hin, A. Ghoshal and. enals Liang Lu, Interspeech, eptember, 2012 Outline Motivation ubspace GMM

More information

CATAVASII LA NAȘTEREA DOMNULUI DUMNEZEU ȘI MÂNTUITORULUI NOSTRU, IISUS HRISTOS. CÂNTAREA I-A. Ήχος Πα. to os se e e na aș te e e slă ă ă vi i i i i

CATAVASII LA NAȘTEREA DOMNULUI DUMNEZEU ȘI MÂNTUITORULUI NOSTRU, IISUS HRISTOS. CÂNTAREA I-A. Ήχος Πα. to os se e e na aș te e e slă ă ă vi i i i i CATAVASII LA NAȘTEREA DOMNULUI DUMNEZEU ȘI MÂNTUITORULUI NOSTRU, IISUS HRISTOS. CÂNTAREA I-A Ήχος α H ris to os s n ș t slă ă ă vi i i i i ți'l Hris to o os di in c ru u uri, în tâm pi i n ți i'l Hris

More information

Feature-space Speaker Adaptation for Probabilistic Linear Discriminant Analysis Acoustic Models

Feature-space Speaker Adaptation for Probabilistic Linear Discriminant Analysis Acoustic Models Feature-space Speaker Adaptation for Probabilistic Linear Discriminant Analysis Acoustic Models Liang Lu, Steve Renals Centre for Speech Technology Research, University of Edinburgh, Edinburgh, UK {liang.lu,

More information

SCORE CALIBRATING FOR SPEAKER RECOGNITION BASED ON SUPPORT VECTOR MACHINES AND GAUSSIAN MIXTURE MODELS

SCORE CALIBRATING FOR SPEAKER RECOGNITION BASED ON SUPPORT VECTOR MACHINES AND GAUSSIAN MIXTURE MODELS SCORE CALIBRATING FOR SPEAKER RECOGNITION BASED ON SUPPORT VECTOR MACHINES AND GAUSSIAN MIXTURE MODELS Marcel Katz, Martin Schafföner, Sven E. Krüger, Andreas Wendemuth IESK-Cognitive Systems University

More information

VYHLÁSENIE O PARAMETROCH. č SK. Predpokladané použitie. stave ý h častí ako o kladov a stropov, pozri prílohu, najmä prílohy B 1 - B 4

VYHLÁSENIE O PARAMETROCH. č SK. Predpokladané použitie. stave ý h častí ako o kladov a stropov, pozri prílohu, najmä prílohy B 1 - B 4 VYHLÁSENIE O PARAMETROCH č. 0009 SK 1. Jedi eč ý ide tifikač ý k d typu výro ku: o eľová kotva fis her FAZ II 2. )a ýšľa é použitie/použitia: Produkt O eľová kotva pre použitie v betóne k upev e iu ťažký

More information

Speaker Verification Using Accumulative Vectors with Support Vector Machines

Speaker Verification Using Accumulative Vectors with Support Vector Machines Speaker Verification Using Accumulative Vectors with Support Vector Machines Manuel Aguado Martínez, Gabriel Hernández-Sierra, and José Ramón Calvo de Lara Advanced Technologies Application Center, Havana,

More information

Robust Speaker Identification

Robust Speaker Identification Robust Speaker Identification by Smarajit Bose Interdisciplinary Statistical Research Unit Indian Statistical Institute, Kolkata Joint work with Amita Pal and Ayanendranath Basu Overview } } } } } } }

More information

Segmental Recurrent Neural Networks for End-to-end Speech Recognition

Segmental Recurrent Neural Networks for End-to-end Speech Recognition Segmental Recurrent Neural Networks for End-to-end Speech Recognition Liang Lu, Lingpeng Kong, Chris Dyer, Noah Smith and Steve Renals TTI-Chicago, UoE, CMU and UW 9 September 2016 Background A new wave

More information

ROZPOZNÁVANIE FONÉM ČÍSIEL SLOVENSKÉHO JAZYKA NEURÓNOVOU SIEŤOU VOJTECH SLOVIK

ROZPOZNÁVANIE FONÉM ČÍSIEL SLOVENSKÉHO JAZYKA NEURÓNOVOU SIEŤOU VOJTECH SLOVIK ROZPOZNÁVANIE FONÉM ČÍSIEL SLOVENSKÉHO JAZYKA NEURÓNOVOU SIEŤOU VOJTECH SLOVIK 2007 UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY KATEDRA APLIKOVANEJ INFORMATIKY ROZPOZNÁVANIE

More information

Modely, metódy a algoritmy pre analýzu longitudinálnych dát

Modely, metódy a algoritmy pre analýzu longitudinálnych dát Vedecká rada Fakulty matematiky, fyziky a informatiky Univerzity Komenského v Bratislave Mgr Gejza Wimmer Autoreferát dizertačnej práce Modely, metódy a algoritmy pre analýzu longitudinálnych dát pre získanie

More information

Usually the estimation of the partition function is intractable and it becomes exponentially hard when the complexity of the model increases. However,

Usually the estimation of the partition function is intractable and it becomes exponentially hard when the complexity of the model increases. However, Odyssey 2012 The Speaker and Language Recognition Workshop 25-28 June 2012, Singapore First attempt of Boltzmann Machines for Speaker Verification Mohammed Senoussaoui 1,2, Najim Dehak 3, Patrick Kenny

More information

Frog Sound Identification System for Frog Species Recognition

Frog Sound Identification System for Frog Species Recognition Frog Sound Identification System for Frog Species Recognition Clifford Loh Ting Yuan and Dzati Athiar Ramli Intelligent Biometric Research Group (IBG), School of Electrical and Electronic Engineering,

More information

VYHLÁSENIE O PARAMETROCH. č SK. Predpokladané použitie. stave ý h častí ako o kladov a stropov, pozri prílohu, najmä prílohy B 1 - B 3

VYHLÁSENIE O PARAMETROCH. č SK. Predpokladané použitie. stave ý h častí ako o kladov a stropov, pozri prílohu, najmä prílohy B 1 - B 3 VYHLÁSENIE O PARAMETROCH č. 0017 SK 1. Jedi eč ý ide tifikač ý kód typu výro ku: fischer skrutka do betónu FBS, FBS A4 a FBS C 2. )a ýšľa é použitie/použitia: Produkt O eľová kotva pre použitie v etó e

More information

Model-based unsupervised segmentation of birdcalls from field recordings

Model-based unsupervised segmentation of birdcalls from field recordings Model-based unsupervised segmentation of birdcalls from field recordings Anshul Thakur School of Computing and Electrical Engineering Indian Institute of Technology Mandi Himachal Pradesh, India Email:

More information

An exploration of dropout with LSTMs

An exploration of dropout with LSTMs An exploration of out with LSTMs Gaofeng Cheng 1,3, Vijayaditya Peddinti 4,5, Daniel Povey 4,5, Vimal Manohar 4,5, Sanjeev Khudanpur 4,5,Yonghong Yan 1,2,3 1 Key Laboratory of Speech Acoustics and Content

More information

Detekcia tváre, identifikácia tváre, Haarove príznaky, AdaBoost, extrakca príznakov, klasifikátor, trénovacia tvár, testovacia tvár, databáza

Detekcia tváre, identifikácia tváre, Haarove príznaky, AdaBoost, extrakca príznakov, klasifikátor, trénovacia tvár, testovacia tvár, databáza Abstrakt Táto diplomová práca sa zaoberá identifikáciu tvárií v reálnych podmienkach. Obsahuje preh ad sú asných metód detekcie tvárií pomocou klasifikátorov. Taktiež obsahuje rôzne metódy na detekciu

More information

Non-Negative Matrix Factorization And Its Application to Audio. Tuomas Virtanen Tampere University of Technology

Non-Negative Matrix Factorization And Its Application to Audio. Tuomas Virtanen Tampere University of Technology Non-Negative Matrix Factorization And Its Application to Audio Tuomas Virtanen Tampere University of Technology tuomas.virtanen@tut.fi 2 Contents Introduction to audio signals Spectrogram representation

More information

Singer Identification using MFCC and LPC and its comparison for ANN and Naïve Bayes Classifiers

Singer Identification using MFCC and LPC and its comparison for ANN and Naïve Bayes Classifiers Singer Identification using MFCC and LPC and its comparison for ANN and Naïve Bayes Classifiers Kumari Rambha Ranjan, Kartik Mahto, Dipti Kumari,S.S.Solanki Dept. of Electronics and Communication Birla

More information

Software Process Models there are many process model s in th e li t e ra t u re, s om e a r e prescriptions and some are descriptions you need to mode

Software Process Models there are many process model s in th e li t e ra t u re, s om e a r e prescriptions and some are descriptions you need to mode Unit 2 : Software Process O b j ec t i ve This unit introduces software systems engineering through a discussion of software processes and their principal characteristics. In order to achieve the desireable

More information

Teória grafov. RNDr. Milan Stacho, PhD.

Teória grafov. RNDr. Milan Stacho, PhD. Teória grafov RNDr. Milan Stacho, PhD. Literatúra Plesník: Grafové algoritmy, Veda Bratislava 1983 Sedláček: Úvod do teórie grafů, Academia Praha 1981 Bosák: Grafy a ich aplikácie, Alfa Bratislava 1980

More information

FEATURE SELECTION USING FISHER S RATIO TECHNIQUE FOR AUTOMATIC SPEECH RECOGNITION

FEATURE SELECTION USING FISHER S RATIO TECHNIQUE FOR AUTOMATIC SPEECH RECOGNITION FEATURE SELECTION USING FISHER S RATIO TECHNIQUE FOR AUTOMATIC SPEECH RECOGNITION Sarika Hegde 1, K. K. Achary 2 and Surendra Shetty 3 1 Department of Computer Applications, NMAM.I.T., Nitte, Karkala Taluk,

More information

IMISOUND: An Unsupervised System for Sound Query by Vocal Imitation

IMISOUND: An Unsupervised System for Sound Query by Vocal Imitation IMISOUND: An Unsupervised System for Sound Query by Vocal Imitation Yichi Zhang and Zhiyao Duan Audio Information Research (AIR) Lab Department of Electrical and Computer Engineering University of Rochester

More information

Metódy vol nej optimalizácie

Metódy vol nej optimalizácie Matematické programovanie Metódy vol nej optimalizácie p. 1/35 Informácie o predmete Informácie o predmete p. 2/35 Informácie o predmete METÓDY VOL NEJ OPTIMALIZÁCIE Prednášajúca: M. Trnovská (M 267) Cvičiaci:

More information

ukázat omezení vztáhnout sebraná data k tomu, co je o předmětu již známo Diskuse je svým způsobem dialogem s úvodem práce spekulovat

ukázat omezení vztáhnout sebraná data k tomu, co je o předmětu již známo Diskuse je svým způsobem dialogem s úvodem práce spekulovat ? DISKUSE? Tomáš Herben Je skoro nejdůležitější částí práce. Její smysl je dvojí: (i) ukázat omezení, za nichž byla získána data v práci (v čem by daný pokus mohl být lepší, a v čem naopak předčí pokusy

More information

Le classeur à tampons

Le classeur à tampons Le classeur à tampons P a s à pa s Le matériel 1 gr a n d cla s s e u r 3 pa pi e r s co o r d o n n é s. P o u r le m o d è l e pr é s e n t é P a p i e r ble u D ai s y D s, pa pi e r bor d e a u x,

More information

The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 10: Acoustic Models

The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 10: Acoustic Models Statistical NLP Spring 2009 The Noisy Channel Model Lecture 10: Acoustic Models Dan Klein UC Berkeley Search through space of all possible sentences. Pick the one that is most probable given the waveform.

More information

Statistical NLP Spring The Noisy Channel Model

Statistical NLP Spring The Noisy Channel Model Statistical NLP Spring 2009 Lecture 10: Acoustic Models Dan Klein UC Berkeley The Noisy Channel Model Search through space of all possible sentences. Pick the one that is most probable given the waveform.

More information

A Variance Modeling Framework Based on Variational Autoencoders for Speech Enhancement

A Variance Modeling Framework Based on Variational Autoencoders for Speech Enhancement A Variance Modeling Framework Based on Variational Autoencoders for Speech Enhancement Simon Leglaive 1 Laurent Girin 1,2 Radu Horaud 1 1: Inria Grenoble Rhône-Alpes 2: Univ. Grenoble Alpes, Grenoble INP,

More information

Exemplar-based voice conversion using non-negative spectrogram deconvolution

Exemplar-based voice conversion using non-negative spectrogram deconvolution Exemplar-based voice conversion using non-negative spectrogram deconvolution Zhizheng Wu 1, Tuomas Virtanen 2, Tomi Kinnunen 3, Eng Siong Chng 1, Haizhou Li 1,4 1 Nanyang Technological University, Singapore

More information

Very Deep Convolutional Neural Networks for LVCSR

Very Deep Convolutional Neural Networks for LVCSR INTERSPEECH 2015 Very Deep Convolutional Neural Networks for LVCSR Mengxiao Bi, Yanmin Qian, Kai Yu Key Lab. of Shanghai Education Commission for Intelligent Interaction and Cognitive Engineering SpeechLab,

More information

MASARYKOVA UNIVERZITA ÚSTAV MATEMATIKY A STATISTIKY

MASARYKOVA UNIVERZITA ÚSTAV MATEMATIKY A STATISTIKY MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA ÚSTAV MATEMATIKY A STATISTIKY Diplomová práce BRNO 2014 MICHAL KOVÁČIK MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA ÚSTAV MATEMATIKY A STATISTIKY Metody testování

More information

Lucia Fuchsová Charakteristiky pravděpodobnostních

Lucia Fuchsová Charakteristiky pravděpodobnostních Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Lucia Fuchsová Charakteristiky pravděpodobnostních předpovědí Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské

More information

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY. Robustné metódy vo faktorovej analýze

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY. Robustné metódy vo faktorovej analýze UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY Robustné metódy vo faktorovej analýze DIPLOMOVÁ PRÁCA Bratislava 2013 Bc. Zuzana Kuižová UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA

More information

Errors-in-variables models

Errors-in-variables models Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Ida Fürjesová Errors-in-variables models Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: RNDr. Michal

More information

THIS PAGE DECLASSIFIED IAW E

THIS PAGE DECLASSIFIED IAW E THS PAGE DECLASSFED AW E0 2958 BL K THS PAGE DECLASSFED AW E0 2958 THS PAGE DECLASSFED AW E0 2958 B L K THS PAGE DECLASSFED AW E0 2958 THS PAGE DECLASSFED AW EO 2958 THS PAGE DECLASSFED AW EO 2958 THS

More information

The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 9: Acoustic Models

The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 9: Acoustic Models Statistical NLP Spring 2010 The Noisy Channel Model Lecture 9: Acoustic Models Dan Klein UC Berkeley Acoustic model: HMMs over word positions with mixtures of Gaussians as emissions Language model: Distributions

More information

MULTI-FRAME FACTORISATION FOR LONG-SPAN ACOUSTIC MODELLING. Liang Lu and Steve Renals

MULTI-FRAME FACTORISATION FOR LONG-SPAN ACOUSTIC MODELLING. Liang Lu and Steve Renals MULTI-FRAME FACTORISATION FOR LONG-SPAN ACOUSTIC MODELLING Liang Lu and Steve Renals Centre for Speech Technology Research, University of Edinburgh, Edinburgh, UK {liang.lu, s.renals}@ed.ac.uk ABSTRACT

More information

Support Vector Machines and Speaker Verification

Support Vector Machines and Speaker Verification 1 Support Vector Machines and Speaker Verification David Cinciruk March 6, 2013 2 Table of Contents Review of Speaker Verification Introduction to Support Vector Machines Derivation of SVM Equations Soft

More information

THE task of identifying the environment in which a sound

THE task of identifying the environment in which a sound 1 Feature Learning with Matrix Factorization Applied to Acoustic Scene Classification Victor Bisot, Romain Serizel, Slim Essid, and Gaël Richard Abstract In this paper, we study the usefulness of various

More information

ENVIRONMENTÁLNE FAKTORY V HODNOTENÍ EFEKTÍVNOSTI V POĽNOHOSPODÁRSTVE ENVIRONMENTAL FACTORS IN EFFICIENCY ASSESMENT IN AGRICULTURE.

ENVIRONMENTÁLNE FAKTORY V HODNOTENÍ EFEKTÍVNOSTI V POĽNOHOSPODÁRSTVE ENVIRONMENTAL FACTORS IN EFFICIENCY ASSESMENT IN AGRICULTURE. ENVIRONMENTÁLNE FAKTORY V HODNOTENÍ EFEKTÍVNOSTI V POĽNOHOSPODÁRSTVE ENVIRONMENTAL FACTORS IN EFFICIENCY ASSESMENT IN AGRICULTURE Peter FANDEL The paper focuses on the analysis of environmental factors

More information

arxiv: v2 [cs.sd] 7 Feb 2018

arxiv: v2 [cs.sd] 7 Feb 2018 AUDIO SET CLASSIFICATION WITH ATTENTION MODEL: A PROBABILISTIC PERSPECTIVE Qiuqiang ong*, Yong Xu*, Wenwu Wang, Mark D. Plumbley Center for Vision, Speech and Signal Processing, University of Surrey, U

More information

VŠB - Technical University of Ostrava, 17. listopadu 15, Ostrava, tel. (+420)

VŠB - Technical University of Ostrava, 17. listopadu 15, Ostrava, tel. (+420) DATA COLLECTION FOR DEVELOPMENT OF ASSESSMENT METHODS OF FIRM ROOF FAILURE BASED ON MINE SURVEYING OBSERVATIONS SBĚR DAT PRO VÝVOJ METODY HODNOCENÍ PORUŠOVÁNÍ PEVNÉHO NADLOŽÍ NA ZÁKLADĚ DŮLNĚ MĚŘICKÝCH

More information

Gain Compensation for Fast I-Vector Extraction over Short Duration

Gain Compensation for Fast I-Vector Extraction over Short Duration INTERSPEECH 27 August 2 24, 27, Stockholm, Sweden Gain Compensation for Fast I-Vector Extraction over Short Duration Kong Aik Lee and Haizhou Li 2 Institute for Infocomm Research I 2 R), A STAR, Singapore

More information

Covariance Matrix Enhancement Approach to Train Robust Gaussian Mixture Models of Speech Data

Covariance Matrix Enhancement Approach to Train Robust Gaussian Mixture Models of Speech Data Covariance Matrix Enhancement Approach to Train Robust Gaussian Mixture Models of Speech Data Jan Vaněk, Lukáš Machlica, Josef V. Psutka, Josef Psutka University of West Bohemia in Pilsen, Univerzitní

More information

ADM a logika. 4. prednáška. Výroková logika II, logický a sémantický dôsledok, teória a model, korektnosť a úplnosť

ADM a logika. 4. prednáška. Výroková logika II, logický a sémantický dôsledok, teória a model, korektnosť a úplnosť ADM a logika 4. prednáška Výroková logika II, logický a sémantický dôsledok, teória a model, korektnosť a úplnosť 1 Odvodzovanie formúl výrokovej logiky, logický dôsledok, syntaktický prístup Logický dôsledok

More information

MULTISCALE SCATTERING FOR AUDIO CLASSIFICATION

MULTISCALE SCATTERING FOR AUDIO CLASSIFICATION MULTISCALE SCATTERING FOR AUDIO CLASSIFICATION Joakim Andén CMAP, Ecole Polytechnique, 91128 Palaiseau anden@cmappolytechniquefr Stéphane Mallat CMAP, Ecole Polytechnique, 91128 Palaiseau ABSTRACT Mel-frequency

More information

DETECT FLOW OF STEAM IN AIR BY ELECTRICAL CAPACITANCE TOMOGRAPHY

DETECT FLOW OF STEAM IN AIR BY ELECTRICAL CAPACITANCE TOMOGRAPHY DETECT FLOW OF STEAM IN AIR BY ELECTRICAL CAPACITANCE TOMOGRAPHY Katarína RATKOVSKÁ 1 - Miroslava CÚTTOVÁ 2 Abstract:.In practice, the steam can also occur in cases where there not be formed, and then

More information

SINGLE CHANNEL SPEECH MUSIC SEPARATION USING NONNEGATIVE MATRIX FACTORIZATION AND SPECTRAL MASKS. Emad M. Grais and Hakan Erdogan

SINGLE CHANNEL SPEECH MUSIC SEPARATION USING NONNEGATIVE MATRIX FACTORIZATION AND SPECTRAL MASKS. Emad M. Grais and Hakan Erdogan SINGLE CHANNEL SPEECH MUSIC SEPARATION USING NONNEGATIVE MATRIX FACTORIZATION AND SPECTRAL MASKS Emad M. Grais and Hakan Erdogan Faculty of Engineering and Natural Sciences, Sabanci University, Orhanli

More information

Lesson Ten. What role does energy play in chemical reactions? Grade 8. Science. 90 minutes ENGLISH LANGUAGE ARTS

Lesson Ten. What role does energy play in chemical reactions? Grade 8. Science. 90 minutes ENGLISH LANGUAGE ARTS Lesson Ten What role does energy play in chemical reactions? Science Asking Questions, Developing Models, Investigating, Analyzing Data and Obtaining, Evaluating, and Communicating Information ENGLISH

More information

AUDIO SET CLASSIFICATION WITH ATTENTION MODEL: A PROBABILISTIC PERSPECTIVE. Qiuqiang Kong*, Yong Xu*, Wenwu Wang, Mark D. Plumbley

AUDIO SET CLASSIFICATION WITH ATTENTION MODEL: A PROBABILISTIC PERSPECTIVE. Qiuqiang Kong*, Yong Xu*, Wenwu Wang, Mark D. Plumbley AUDIO SET CLASSIFICATION WITH ATTENTION MODEL: A PROBABILISTIC PERSPECTIVE Qiuqiang ong*, Yong Xu*, Wenwu Wang, Mark D. Plumbley Center for Vision, Speech and Signal Processing, University of Surrey, U

More information

Correspondence. Pulse Doppler Radar Target Recognition using a Two-Stage SVM Procedure

Correspondence. Pulse Doppler Radar Target Recognition using a Two-Stage SVM Procedure Correspondence Pulse Doppler Radar Target Recognition using a Two-Stage SVM Procedure It is possible to detect and classify moving and stationary targets using ground surveillance pulse-doppler radars

More information

Inscenácia. Miloša Pietra. O myšiach a ľuďoch. ročníková práca

Inscenácia. Miloša Pietra. O myšiach a ľuďoch. ročníková práca Vy s o k á š k o l a m ú z i c k ý c h u m e n í K a t e d r a d i v a d e l n ý c h š t ú d i í Inscenácia Miloša Pietra O myšiach a ľuďoch ročníková práca Matej Moško 2009 But, Mousie, thou art no thy

More information

Feature Learning with Matrix Factorization Applied to Acoustic Scene Classification

Feature Learning with Matrix Factorization Applied to Acoustic Scene Classification Feature Learning with Matrix Factorization Applied to Acoustic Scene Classification Victor Bisot, Romain Serizel, Slim Essid, Gaël Richard To cite this version: Victor Bisot, Romain Serizel, Slim Essid,

More information

Gaussian Mixture Model Uncertainty Learning (GMMUL) Version 1.0 User Guide

Gaussian Mixture Model Uncertainty Learning (GMMUL) Version 1.0 User Guide Gaussian Mixture Model Uncertainty Learning (GMMUL) Version 1. User Guide Alexey Ozerov 1, Mathieu Lagrange and Emmanuel Vincent 1 1 INRIA, Centre de Rennes - Bretagne Atlantique Campus de Beaulieu, 3

More information

Modeling Prosody for Speaker Recognition: Why Estimating Pitch May Be a Red Herring

Modeling Prosody for Speaker Recognition: Why Estimating Pitch May Be a Red Herring Modeling Prosody for Speaker Recognition: Why Estimating Pitch May Be a Red Herring Kornel Laskowski & Qin Jin Carnegie Mellon University Pittsburgh PA, USA 28 June, 2010 Laskowski & Jin ODYSSEY 2010,

More information

Maticové algoritmy I maticová algebra operácie nad maticami súčin matíc

Maticové algoritmy I maticová algebra operácie nad maticami súčin matíc Maticové algoritmy I maticová algebra operácie nad maticami súčin matíc priesvitka Maurits Cornelis Escher (898-97) Ascending and Descending, 960, Lithograph priesvitka Matice V mnohých prípadoch dáta

More information

Introduction to Machine Learning Midterm Exam

Introduction to Machine Learning Midterm Exam 10-701 Introduction to Machine Learning Midterm Exam Instructors: Eric Xing, Ziv Bar-Joseph 17 November, 2015 There are 11 questions, for a total of 100 points. This exam is open book, open notes, but

More information

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY MODELOVANIE VEKU ÁUT V PREVÁDZKE

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY MODELOVANIE VEKU ÁUT V PREVÁDZKE UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY MODELOVANIE VEKU ÁUT V PREVÁDZKE Bakalárska práca 2011 Andrej Horský UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY

More information

h : sh +i F J a n W i m +i F D eh, 1 ; 5 i A cl m i n i sh» si N «q a : 1? ek ser P t r \. e a & im a n alaa p ( M Scanned by CamScanner

h : sh +i F J a n W i m +i F D eh, 1 ; 5 i A cl m i n i sh» si N «q a : 1? ek ser P t r \. e a & im a n alaa p ( M Scanned by CamScanner m m i s t r * j i ega>x I Bi 5 n ì r s w «s m I L nk r n A F o n n l 5 o 5 i n l D eh 1 ; 5 i A cl m i n i sh» si N «q a : 1? { D v i H R o s c q \ l o o m ( t 9 8 6) im a n alaa p ( M n h k Em l A ma

More information

Monaural speech separation using source-adapted models

Monaural speech separation using source-adapted models Monaural speech separation using source-adapted models Ron Weiss, Dan Ellis {ronw,dpwe}@ee.columbia.edu LabROSA Department of Electrical Enginering Columbia University 007 IEEE Workshop on Applications

More information

Softwarové inžinierstvo. martin timothy timko

Softwarové inžinierstvo. martin timothy timko S Q L S E R V E R : A D O. N E T Softwarové inžinierstvo martin timothy timko 14.9. 2017 1 úvod 2 1 úvod ADO.NET je objektovo-orientovaná množina knižníc, ktorá poskytuje manipuláciu s dátovými zdrojmi.

More information

MODELOVANIE TECHNOLOGICKEJ ČASTI POCÍNOVACEJ LINKY NA BÁZE UMELÝCH NEURÓNOVÝCH SIETÍ

MODELOVANIE TECHNOLOGICKEJ ČASTI POCÍNOVACEJ LINKY NA BÁZE UMELÝCH NEURÓNOVÝCH SIETÍ Acta Metallurgica Slovaca, 2, 2006, 3 (282-290) 282 MODELOVANIE TECHNOLOGICKEJ ČASTI POCÍNOVACEJ LINKY NA BÁZE UMELÝCH NEURÓNOVÝCH SIETÍ Žilková J., Timko J. Katedra elektrotechniky, mechatroniky a priemyslového

More information

Spectral and Textural Feature-Based System for Automatic Detection of Fricatives and Affricates

Spectral and Textural Feature-Based System for Automatic Detection of Fricatives and Affricates Spectral and Textural Feature-Based System for Automatic Detection of Fricatives and Affricates Dima Ruinskiy Niv Dadush Yizhar Lavner Department of Computer Science, Tel-Hai College, Israel Outline Phoneme

More information

3. Horninové prostredie / Rocks

3. Horninové prostredie / Rocks 3.1 Základné charakteristiky geologickej a tektonickej stavby Basic features of geological and tectonic structure 3.2 Svahové pohyby Slope movements 3.3 Odvodená mapa radónového rizika Derived map of the

More information

C o r p o r a t e l i f e i n A n c i e n t I n d i a e x p r e s s e d i t s e l f

C o r p o r a t e l i f e i n A n c i e n t I n d i a e x p r e s s e d i t s e l f C H A P T E R I G E N E S I S A N D GROWTH OF G U IL D S C o r p o r a t e l i f e i n A n c i e n t I n d i a e x p r e s s e d i t s e l f i n a v a r i e t y o f f o r m s - s o c i a l, r e l i g i

More information

Novel Quality Metric for Duration Variability Compensation in Speaker Verification using i-vectors

Novel Quality Metric for Duration Variability Compensation in Speaker Verification using i-vectors Published in Ninth International Conference on Advances in Pattern Recognition (ICAPR-2017), Bangalore, India Novel Quality Metric for Duration Variability Compensation in Speaker Verification using i-vectors

More information

i-vector and GMM-UBM Bie Fanhu CSLT, RIIT, THU

i-vector and GMM-UBM Bie Fanhu CSLT, RIIT, THU i-vector and GMM-UBM Bie Fanhu CSLT, RIIT, THU 2013-11-18 Framework 1. GMM-UBM Feature is extracted by frame. Number of features are unfixed. Gaussian Mixtures are used to fit all the features. The mixtures

More information