Izboljšanje natančnosti razpoznavanja govora z določanjem njegove aktivnosti na podlagi statističnega modela

Similar documents
Modifying Voice Activity Detection in Low SNR by correction factors

Attempt to prepare seasonal weather outlook for Slovenia

Reševanje problemov in algoritmi

SPEECH ENHANCEMENT USING PCA AND VARIANCE OF THE RECONSTRUCTION ERROR IN DISTRIBUTED SPEECH RECOGNITION

MANY digital speech communication applications, e.g.,

OA07 ANNEX 4: SCOPE OF ACCREDITATION IN CALIBRATION

Detection-Based Speech Recognition with Sparse Point Process Models

Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator

Improved Speech Presence Probabilities Using HMM-Based Inference, with Applications to Speech Enhancement and ASR

Computing the steady-state response of nonlinear circuits by means of the ǫ-algorithm

Digital Signal Processing

ENERGY AND MASS SPECTROSCOPY OF IONS AND NEUTRALS IN COLD PLASMA

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Izbira optimalnih podstruktur nerekurzivnega digitalnega sita v porazdeljeni aritmetiki

USING SIMULATED SPECTRA TO TEST THE EFFICIENCY OF SPECTRAL PROCESSING SOFTWARE IN REDUCING THE NOISE IN AUGER ELECTRON SPECTRA

Enhancement of Noisy Speech. State-of-the-Art and Perspectives

TOPLJENEC ASOCIIRA LE V VODNI FAZI

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ekstremne porazdelitve za odvisne spremenljivke

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R

Dejan Petelin. Sprotno učenje modelov na podlagi Gaussovih procesov

NOISE ROBUST RELATIVE TRANSFER FUNCTION ESTIMATION. M. Schwab, P. Noll, and T. Sikora. Technical University Berlin, Germany Communication System Group

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. O neeksaknotsti eksaktnega binomskega intervala zaupanja

CURRENT state-of-the-art automatic speech recognition

A POSTERIORI SPEECH PRESENCE PROBABILITY ESTIMATION BASED ON AVERAGED OBSERVATIONS AND A SUPER-GAUSSIAN SPEECH MODEL

Alp-ULj Speaker Recognition System for the NIST 2014 i-vector Challenge

A SPECTRAL SUBTRACTION RULE FOR REAL-TIME DSP IMPLEMENTATION OF NOISE REDUCTION IN SPEECH SIGNALS

Teorija verjetnosti uvod. prof. dr. Jurij Tasič Asistent Emil Plesnik Laboratorij za digitalno obdelavo signalov, slik in videa

OPTIMIRANJE IZDELOVALNIH PROCESOV

Vpliv navitja na prostorske harmonske komponente enofaznega motorja z obratovalnim kondenzatorjem

A Low-Cost Robust Front-end for Embedded ASR System

A SPEECH PRESENCE PROBABILITY ESTIMATOR BASED ON FIXED PRIORS AND A HEAVY-TAILED SPEECH MODEL

SNR Features for Automatic Speech Recognition

Modeliranje časovnih vrst z metodami teorije informacij

Minimum Mean-Square Error Estimation of Mel-Frequency Cepstral Features A Theoretically Consistent Approach

Calculation of stress-strain dependence from tensile tests at high temperatures using final shapes of specimen s contours

Hidden Markov Model and Speech Recognition

SINGLE-CHANNEL SPEECH PRESENCE PROBABILITY ESTIMATION USING INTER-FRAME AND INTER-BAND CORRELATIONS

THE PROBLEMS OF ROBUST LPC PARAMETRIZATION FOR. Petr Pollak & Pavel Sovka. Czech Technical University of Prague

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

(Received )

Optimizacija razporeditve preizkušanja in vzdrževanja varnostne opreme na podlagi najmanjšega tveganja

2D Spectrogram Filter for Single Channel Speech Enhancement

A Variance Modeling Framework Based on Variational Autoencoders for Speech Enhancement

A Subspace Approach to Estimation of. Measurements 1. Carlos E. Davila. Electrical Engineering Department, Southern Methodist University

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA POLONA ŠENKINC REŠEVANJE LINEARNIH DIFERENCIALNIH ENAČB DRUGEGA REDA S POMOČJO POTENČNIH VRST DIPLOMSKO DELO

Verifikacija napovedi padavin

Samo-nastavljivo vodenje z DMC-jem in proporcionalnim regulatorjem

Cepstral normalisation and the signal to noise ratio spectrum in automatic speech recognition.

Izbolj{ana razpoznava du{enja z uporabo zvezne val~ne transformacije

Model-Based Margin Estimation for Hidden Markov Model Learning and Generalization

The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 10: Acoustic Models

Statistical NLP Spring The Noisy Channel Model

Automatic Speech Recognition (CS753)

CEPSTRAL analysis has been widely used in signal processing

A priori SNR estimation and noise estimation for speech enhancement

Acta Chim. Slov. 2003, 50,

A Generalized Subspace Approach for Enhancing Speech Corrupted by Colored Noise

SINGLE-CHANNEL speech enhancement methods based

Inteligentni sistem vodenja proizvodne linije gumijevih profilov

Robust Speech Recognition in the Presence of Additive Noise. Svein Gunnar Storebakken Pettersen

NOISE reduction is an important fundamental signal

Avtomatska transkripcija zvočnih posnetkov tolkal

A Comparative Study of Histogram Equalization (HEQ) for Robust Speech Recognition

modeli regresijske analize nominalnih spremenljivk

Vrednotenje gibov in kretenj roke kot vhodne naprave za komunikacijo človek stroj v navideznih okoljih

The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 9: Acoustic Models

Environmental Sound Classification in Realistic Situations

Razpoznavanje govora GOVORNE IN SLIKOVNE TEHNOLOGIJE. prof. dr. France Mihelič

Experiments with a Gaussian Merging-Splitting Algorithm for HMM Training for Speech Recognition

Solutions. Name and surname: Instructions

1 Ternik Primož - Zasebni raziskovalec, Bresterniška ulica 163, Bresternica

VAJE 2: Opisna statistika

Evaluation of the modified group delay feature for isolated word recognition

NEW STEIGLITZ-McBRIDE ADAPTIVE LATTICE NOTCH FILTERS

DNN-based uncertainty estimation for weighted DNN-HMM ASR

JEDRSKA URA JAN JURKOVIČ. Fakulteta za matematiko in fiziko Univerza v Ljubljani

Iskanje najcenejše poti v grafih preko polkolobarjev

Voice Activity Detection Using Pitch Feature

Primerjava metod aproksimativnega sklepanja pri izolaciji napak - simulacijska študija

Information Theoretic Imaging

The Noisy Channel Model. CS 294-5: Statistical Natural Language Processing. Speech Recognition Architecture. Digitizing Speech

Signal Modeling Techniques in Speech Recognition. Hassan A. Kingravi

Modeling and Control of Instabilities in Combustion Processes Modeliranje in upravljanje nestabilnosti v procesih zgorevanja

MICROWAVE PLASMAS AT ATMOSPHERIC PRESSURE: NEW THEORETICAL DEVELOPMENTS AND APPLICATIONS IN SURFACE SCIENCE

Baroklina nestabilnost

Zaznavanje napak in spremljanje čiščenja odpadnih voda na podlagi mehkega modela

Increasing process safety using analytical redundancy

Voice activity detection based on conjugate subspace matching pursuit and likelihood ratio test

Bayesian estimation of chaotic signals generated by piecewise-linear maps

Machine Recognition of Sounds in Mixtures

Primerjalna analiza metode neposredne regulacije toka

SIMETRIČNE KOMPONENTE

Modelska Analiza 1. University of Ljubljana Faculty of Mathematics and Physics. 3. naloga - Numeri na minimizacija

Noise Compensation for Subspace Gaussian Mixture Models

VOICE ACTIVITY DETECTION IN PRESENCE OF TRANSIENT NOISE USING SPECTRAL CLUSTERING AND DIFFUSION KERNELS

Nelinearni algoritem za estimacijo stanj in identifikacijo

This is an electronic reprint of the original article. This reprint may differ from the original in pagination and typographic detail.

ZDRAVLJENJE BOLNICE S VON WILLEBRANDOVO BOLEZNIJO TIPA 3 IN INHIBITORJI

Determining the Leakage Flow through Water Turbines and Inlet- Water Gate in the Doblar 2 Hydro Power Plant

Transcription:

Elektrotehniški vestnik 69(1): 75 82, 2002 Electrotechnical Review, Ljubljana, Slovenija Izboljšanje natančnosti razpoznavanja govora z določanjem njegove aktivnosti na podlagi statističnega modela Bojan Jarc, Rudolf Babič Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko, Smetanova ul. 17, 2000 Maribor, Slovenija E-pošta: bojan.jarc@uni-mb.si, rudolf.babic@uni-mb.si Povzetek. V naslednjem prispevku sta predstavljeni metoda dušenja šuma v šumnem govornem signalu in njena uspešnost pri izboljšanju natančnosti avtomatskega razpoznavanja govora. Spektralne komponente govora in šuma štejemo za naključne kompleksne spremenljivke, ki so rezultat ergodičnega procesa. Iz ocenjenih statističnih lastnosti spektralnih komponent šuma in spektra šumnega signala je določena linearna ocena spektra čistega signala. Lastnosti spektralnih komponent šuma ocenjujemo v območjih najmanjše verjetnosti prisotnosti govora. Za ugotavljanje prisotnosti govora v šumnem signalu je uporabljen postopek na podlagi razmerja verjetnosti. Uspešnost metode je prikazana na primeru avtomatskega razpoznavanja govora baze Aurora 2. Z metodo predprocesiranja je bilo doseženo skupno relativno izboljšanje 35,42 % za primer učenja na čistih vzorcih ter 20,02 % za primer učenja na čistih in šumnih vzorcih. Ključne besede: razpoznavanje govora v šumnem okolju, procesiranje signalov, razmerje verjetnosti, ugotavljanje prisotnosti govora Speech recognition enhancement with statistical model-based voice activity detection Extended abstract. Most of the current systems for automatic speech recognition (ASR) reach high recognition rates in recognition of clean speech. But when the recognition in real noisy environment is performed the, recognition rate drops significantly. This paper presents an efficient preprocessing method for speech enhancement. The idea of the method is to assume the noisy signal discrete Fourier transform (DFT) coefficients as complex random values. We use a statistical model in which speech and noise signals are Gaussian random processes that are independent of each other, then the discrete Fourier transform coefficients of each process are asymptotically independent Gaussian random variables. Upon statistic values estimation of noise-only spectrum, an enhancement of noisy signal spectrum is performed. The basics idea of the method was presented in [9, 10]. At that time the main drawbacks of the method were in assuming the noise spectrum statistic values to be stationary and in the necessity of having input parameters manually set. That s why we supplemented it with a likelihood ratio based voice activity detection (VAD) method. Log-ratio of joint probability density functions conditioned on two hypotheses was calculated. Those hypotheses are H 0 and H 1, where H 0 stands for speech is absent and H 1 for speech is present in a noisy signal. Detailed explanation of the VAD method can be found in section 2.1. To cope with noise dynamics, noise-only spectrum statistic values should be re-estimated at intervals where only noise is present. The likelihood ratio is used for determination of those intervals and values are re-estimated at intervals where it reaches its minimum. Adaptation of noise-only spectrum statistic val- Prejet 20. avgust, 2001 Odobren 15. januar, 2002 ues with a soft decision information is presented in section 2.2. Ephraim and Trees proposed a clean signal spectrum linear estimator from the noisy one in [1]. In section 2.3 we use a modified estimator combined with likelihood ratio to improve its performance. Results on improvement of automatic speech recognition are presented in section 3. The Aurora 2 database of digit sequences is used to show the method effectiveness. Aurora 2 database digit sequences are TIdigits test samples downsampled to 8 khz. Different noises at different signal-to-noise ratios are artificially added. Tables 1 and 2 show absolute and relative performance of the proposed method. Clean and multiconditional training results are presented. Clean training results show significant improvement in word recognition accuracy at all noise environments. With the pre-processing method the total absolute performance is improved from 60,06 % to 74,21 %. Relatively presented, this stands for the total relative improvement of 35,42 % for clean training condition. With this approach we improved the last reported relative results in [10] which were 30,57 % for this condition. Multiconditional training is one of the methods to improve recognition noise robustness. Baseline total absolute results (86,39 %) are higher than those for clean training condition. Still, we improved the total absolute performance to 89,12 % which is 20,02 % compared to the baseline. The last reported results in [10] were 17,50 % for this type of training. We can conclude that the proposed method is efficient in speech enhancement and has moderate numerical complexity, which makes it adequate for real world implementation. Key words: noise robust speech recognition, signal processing, likelihood ratio, voice activity detection

76 Jarc, Babič 1 Uvod Večini sistemov za avtomatsko razpoznavanje govornega signala drastično upade natančnost razpoznavanja, ko se iz studijskega preselimo v realno okolje. Šum iz okolice in odboj signala sta dejavnika, ki bistveno vplivata na uspešnost. Novi trendi na področju mobilnih komunikacij narekujejo razvoj metod razpoznavanja in predprocesiranja, ki bi učinkovito povečali robustnost. Iz preteklosti je znanih mnogo metod dušenja šuma. Od preprostih, kot sta spektralna substrakcija in Wiener filtriranje [2], do zahtevnejših, kot je adaptivno filtriranje in v novejšem času metode signalnega podprostora [1]. Uspešnost metod je zelo težko primerjati med seboj, saj izboljšanje razumljivosti ali razmerja signal-šum ne pomeni nujno izboljšanja stopnje avtomatskega razpoznavanja. Zato v zadnjem času nastajajo težnje po ocenjevanju uspešnosti metod pod enakimi pogoji [7]. Vnašem prispevku bomo predstavili metodo dušenja šuma in pokazali njeno uspešnost izboljšanja stopnje avtomatskega razpoznavanja govora. 2 Predstavitev metode V tem poglavju bomo predstavili metodo dušenja šuma, ki temelji na statistični oceni spektra šumnega signala, izračunanega s transformacijo DFT. Predpostavili bomo, da sta vektor šuma n in vektor govornega signala s nekorelirana in da je vektor šumnega govornega signala y vsota obeh. Zapišemo lahko: y(k) =s(k)+n(k). (1) Čisti signal s bomo ocenili iz šumnega signala y na podlagi nekaj preteklih in nekaj prihodnjih vrednosti. Oceno čistega signala ŝ bomo opravili v frekvenčnem prostoru. Ŝ (m) =E { S (m) y(k) } E { S (m) [ Y (j) (0 : J 1); w T j w + T ]}. (2) V enačbi pomeni S (m) kompleksno vrednost spektra čistega signala s, izračunano s kratkočasovno DFT transformacijo, w je opazovano okno, J je število točk DFT transformacije in m frekvenca. T pomeni število sosednjih oken, ki je uporabljeno za oceno spektralne komponente čistega signala Ŝ (m). Predpostavili bomo, da so frekvenčne komponente med seboj neodvisne. Ta poenostavitev je zelo groba, saj vemo, da tonske glasove govora sestavlja najbolj izražena osnovna frekvenca in višji harmoniki. Oceno spektra čistega signala torej zapišemo z Ŝ (m) = E { S (m) [ Y (j) (m); w T j w + T ]}. (3) Za stacionarni šum lahko predpostavimo, da so kompleksni DFT koeficienti naključne Gaussove spremenljivke. Tako realni kot imaginarni del se obnašata kot naključna Gaussova spremenljivka s srednjo vrednostjo nič [3]. Govorni signal ni stacionarni, kakor tudi ne ergodični proces, vendar bomo njegov spekter opazovali v kratkem časovnem intervalu. Zato bomo zanj uporabili enak model. Na podlagi ocenjene vrednosti varianc spektralnih komponent šuma v območjih, kjer govorni signal ni prisoten, in variance spektralnih komponent šumnega signala bomo zapisali oceno spektra čistega signala. Za oceno bomo uporabili modificirano splošno Wienerjevo funkcijo, katere osnovno obliko sta predlagala Ephraim in Van Trees [1]. 2.1 Ugotavljanje prisotnosti govornega signala Prisotnost govora v šumnem signalu smo določili s pomočjo razmerja verjetnosti [3, 4]. Za vsako okno spektra šumnega signala smo postavili dve hipotezi: H 0 : govor ni prisoten: Y=N H 1 : govor je prisoten: Y=S+N, kjer Y, N in S pomenijo z DFT izračunane spektre oknjenega šumnega signala, šuma in govornega signala. Y (m), N(m) in S(m) so njihovi m-ti kompleksni spektralni koeficienti. Za opis koeficientov DFT je bil uporabljen Gaussov statistični model [6]. Takrat zapišemo za posamezno okno združeni pogojni gostoti verjetnosti P (Y H 0)= J 1 ( 1 πλ N (m) exp ) Y (m) 2, (4) λ N (m) J 1 1 P (Y H 1)= π [ λ N (m)+λ ] S(m) ( ) Y (m) 2. exp [ λn (m)+λ ], S(m) kjer sta λ N (m) in λ S (m) varianci N(m) in S(m), J pa je število spektralnih komponent oz. dolžina okna. Varianco m-te spektralne komponente govornega signala ocenimo z (5) λs(m) = Y (m) 2 λ N (m). (6) Iz enačb (4), (5) in (6) zapišemo logaritem razmerja verjetnosti Λ g = 1 p(y H1) log J p(y H 0) = 1 J 1 { } Y (m) 2 H1 Y (m) 2 log J λ N (m) λ N (m) 1 > η, < H 0 (7)

Izboljšanje natančnosti razpoznavanja govora določanjem njegove aktivnosti na podlagi statističnega modela 77 ki je odločitveno pravilo med hipotezama H 1 in H 0.Ker sta govorni signal in šum nekorelirana za varianco m-te spektralne komponente Y (m), velja λ Y (m) =λ S(m)+λ N (m). (8) Varianci λ N (m) in λ S (m) sta oceni moči m-te spektralne komponente šuma in govornega signala [4] zato Y (m) 2 ocenimo z λ Y (m). Enačbo (7) zapišemo sedaj z Λ g 1 J J 1 { λy (m) λy (m) log λ N (m) } H1 λ N (m) 1 > η. (9) < H 0 2.2 Ocena varianc spektralnih komponent šuma Optimalna ocena varianc spektralnih komponent šuma {λ N (m),m = 0,..., J 1} v smislu najmanjšega srednjega kvadratnega odstopanja [4] je podana z: λn (m) =E {λ N (m) Y (m)} =E {λ N (m) H 0} P (H 0 Y (m)) + E {λ N (m) H 1} P (H 1 Y (m)). (10) Z uporabo Bayesovega pravila zapišemo enačbo za pogojno verjetnost hipoteze H 0 P (H 0 Y (m)) = p(y (m) H 0)P (H 0) = p(y (m) H 0)P (H 0)+p(Y (m) H 1)P (H 1) 1 = 1+εΛ(m), (11) kjer je ε = P (H 1 )/P (H 0 ), P (H 1 ) je a priori verjetnosti hipoteze H 1, P (H 0 ) je a priori verjetnost hipoteze H 0 in Λ(m) =p(y (m) H 1 )/p(y (m) H 0 ). Analogno sledi P (H 1 Y (m)) = Iz enačb (10), (11) in (12) zapišemo ελ(m) 1+εΛ(m). (12) 1 E {λ N (m) Y (m)} = E {λn (m) H0} 1+εΛ(m) + ελ(m) (13) 1+εΛ(m) E {λn (m) H1}. Oceno variance λ N (m) spektralne komponente šuma izvedemo za vsako okno w in zapišemo z λ N (m). Da bi dobili izračunljivo oceno λ N (m) v enačbi (13), je smiselno namesto E{λ N (m) H 0 } uporabiti λ Y (m) v oknih, kjer govorni signal ni prisoten. Če pa govorni signal je prisoten, uporabimo namesto E{λ N (m) H 1 } oceno variance spektralne komponente šuma v predhodnem oknu λ (w 1) N (m). Ker odločitve prisotnosti govornega signala ne počnemo za vsako frekvenco m posebej, zamenjamo Λ(m) z Λ g izračunanim po enačbi (9). Oceno variance spektralne komponente šuma zapišemo kot: λ N (m) = 1 1+εΛ (m) λ Y (m) 2.3 Opis algoritma g + ελ g (m) 1+εΛ g (m) λ(w 1) N (m). (14) Postopek, ki ga izvedemo za vsako okno šumnega signala, strnimo v naslednjih osem korakov. Prvi korak: Predbeljenje obarvanega šuma s FIR filtrom stopnje p. p ŷ(k) = a(i)y(k i). (15) i=1 Venačbi (15) je y(k) šumni signal z obarvanim šumom, ŷ(k) je šumni signal s pobeljenim šumom in a(i) so koeficienti filtra za predbeljenje. Koeficiente filtra za predbeljenje a= [a(1),a(2),..., a(p)] T izračunamo z Yule- Walker avtoregresivno (AR(p)) metodo v območjih brez govornega signala. Drugi korak: Ocena spektrograma oknjenega signala ŷ(k) s kratkočasovno transformacijo DFT. Uporabili smo Hammingovo okno in prekrivanje 3/4J, kjer J pomeni dolžino okna. Tretji korak: Ocena variance posamezne kompleksne spektralne komponente okna w v 2T +1sosednjih oknih λ Y (m) = 1 2T +1 w+t i=w T µ (m) = 1 2T +1 (i) (m) µ (m) 2, (16) w+t i=w T (i) (m), (17) kjer (i) (m) pomeni kompleksno spektralno komponento m, šumnega signala v oknu i, izračunano s transformacijo DFT. µ (m) in λ Y (m) sta ocenjena srednja vrednost in varianca kompleksne spektralne komponente m, okna w in 2T +1je število sosednjih oken, ki smo jih uporabili za oceno. Četrti korak: Ocena varianc spektralnih komponent šuma po enačbi (14). Ugodnejši rezultati avtomatskega razpoznavanja govora so nam narekovali oceno v intervalih (npr. interval petdesetih oken), v katerih smo z dovolj veliko verjetnostjo pričakovali območje brez govornega signala. Oceno po enačbi (14) smo izvedli v oknu intervala, kjer je logaritemsko razmerje verjetnosti Λ g doseglo minimum oz. je bila verjetnost hipoteze H 0 največja. Ocenjeno varianco šuma smo privzeli za celoten trenutni interval, kakor tudi za preliminarno oceno logaritemskega razmerja verjetnosti Λ g naslednjega intervala.

78 Jarc, Babič Peti korak: Dušenje spektralnih komponent šumnega signala, ki so po svojih statističnih lastnostih podobne šumu. Faktor dušenja d smo določili izkustveno. Najboljše rezultate smo dosegli, če smo dušili spektralne komponente, katerih varianca se je nahajala v območju: λn,min λ N (m) λn,max. (18) Maksimalno in minimalno vrednost variance spektralnih komponent šuma smo določili z: { λ } λn,min = min N (0 : J 1), (19) { λ } λn,max = max N (0 : J 1). (20) V enačbah (19) in (20) je J število spektralnih komponent in w okno, kjer je logaritemsko razmerje verjetnosti Λ g doseglo minimalno vrednost v trenutnem intervalu. Čeprav naj bi po teoriji signalnega podprostora [1] te komponente izenačili z nič, so bili pri avtomatskem razpoznavanju govora doseženi boljši rezultati, ko smo jih ustrezno dušili. Sklepamo lahko, da kriterij in ocena podprostora šuma nista bila najboljša in da DFT ni optimalna transformacija, saj se v ocenjenem podprostoru šuma nahajajo tudi komponente signala. Šesti korak: Množenje spektralnih komponent z modificirano splošno Wienerjevo ojačevalno funkcijo. V nasprotju s predlagano funkcijo v [1] smo namesto ocenjene λ S (m) uporabili variance spektralnih komponent šumnega signala λ (m). S tem smo dosegli večjo natančnost razpoznavanja. S (m) = (m) { λ λ (m) (m)+ν λ N,max } 1/2 (21) V zgornji enačbi je ν Lagrangeov množilnik. Njegovo vrednost v posameznem oknu w smo določili glede na razmerje verjetnosti po enačbi: ν = exp(λ g )+D, (22) exp(λ g ) kjer D pomeni eksperimentalno določeno konstanto. Iz enačbe (9) je razvidno, da Λ g ne more biti manjši od nič oz. da je omejen v intervalu Λ g [0, ). Sledi torej, da je ν omejen v intervalu ν (1,D+1]. In sicer, ko je Λ g =0je ν = D +1in ko gre Λ g gre ν 1. S stališča prisotnosti govornega signala v šumnem signalu to pomeni, da je ν 1, ko je verjetnost prisotnosti govornega signala velika in ν D+1, ko je verjetnost majhna. Sedmi korak: Izračun inverzne Fourierjeve transformacije (IDFT) spektra S (m) s (k). Vzorce s (k) delimo z oknom in ustrezno uredimo s (k) s(k). Osmi korak: Filtriranje z inverznim IIR filtrom filtra za predbeljenje s(k) = p a(i)ŝ(k i)+ s(k), (23) i=1 kjer s(k) pomeni oceno čistega signala. 3 Rezultati Uspešnost metode smo pokazali na primeru avtomatskega razpoznavanja govora baze Aurora 2 [7]. Aurora 2 je angleška baza sekvenc števk različnih govorcev. V posamezni sekvenci se nahaja ena do sedem zaporedoma izgovorjenih števk od 0 do 9 ter števka zero. Baza vsebuje modele za učenje, in sicer: učenje na čistih vzorcih (Clean training) ter učenje na čistih in šumnih vzorcih (Multicondition training). Razpoznavanje je izvedeno s prikritimi modeli Markova. Vsaka števka je bila modelirana s 16 stanji. Vsako stanje je bilo modelirano s tremi Gaussovimi porazdelitvenimi funkcijami z izjemama sp in sil (kratek in dolg presledek), ki sta bila modelirana s šestimi Gaussovimi porazdelitvenimi funkcijami. Za generiranje vektorja značilk je bil uporabljen Front-End v2.0. Generirali smo 13 statičnih kepstralnih koeficientov MFCC E=13, 13 delta koeficientov in 13 delta-delta koeficientov. Skupna dimenzija je bila 39. Za razpoznavanje smo uporabili razpoznavalnik besed HTK Viterbi. Govorni vzorci baze so generirani na podlagi baze TIdigit, vzorčeni navzdol s frekvenco vzorčenja 8 khz in filtrirani s karakteristiko G712 [7]. Baza vsebuje čiste govorne vzorce in vzorce z dodanimi različnimi šumi z razmerjem SNR = -5, 0, 5, 10, 15 in 20 db. Sestavljajo jo trije deli: A, B in C.Zadel A so uporabljeni štirje različni šumi: podzemska železnica (Subway), govor v ozadju (Bubble), hrup v avtomobilu (Car) in v dvorani (Exhibition). Šumi dela A so bili uporabljeni za učenje na šumnih vzorcih. Šumi, dodani delu B, so: restavracija (Restaurant), ulica (Street), letališče (Airport) inželezniška postaja (Station). B del baze naj bi najbolje ustrezal dejanskim razmeram pri uporabi mobilnih terminalov. Del C je v nasprotju z deloma A in B filtriran s karakteristiko MIRS [7]. Dodani šumi so: podzemska železnica (Subway M) in ulica (Street M). Drugačna karakteristika filtriranja naj bi simulirala vpliv terminalov z različnimi karakteristikami. 3.1 Nastavitve Z metodo smo opravili predprocesiranje vseh govornih sekvenc baze z izjemo čistih. Koeficiente AR procesa za predbeljenje smo določili v prvih 100 ms posamezne sekvence, kar smo šteli za minimalni odzivni čas govorca pri komunikaciji človek-stroj. Uporabili smo AR(p) proces stopnje p =10.

Izboljšanje natančnosti razpoznavanja govora določanjem njegove aktivnosti na podlagi statističnega modela 79 Aurora 2 Multicondition Training - Results Clean 98.89 98.52 98.60 98.67 98.67 98.89 98.52 98.60 98.67 98.67 98.83 98.61 98.72 98.68 10.59% 20 db 98.31 97.94 98.18 98.24 98.17 97.85 97.67 97.46 98.15 97.78 97.91 97.64 97.78 97.94 20.63% 15 db 97.24 96.55 98.03 97.62 97.36 95.58 96.86 96.78 97.25 96.62 96.78 96.67 96.73 96.94 16.50% 10 db 95.39 94.07 96.60 95.56 95.41 91.86 95.10 93.59 95.03 93.90 94.29 93.53 93.91 94.50 11.11% 5 db 91.31 86.09 93.23 90.00 90.16 81.55 89.18 87.53 88.46 86.68 87.01 84.73 85.87 87.91 16.82% 0 db 76.14 61.00 78.74 73.84 72.43 56.03 71.92 70.09 72.05 67.52 62.51 60.61 61.56 68.29 21.88% -5dB 40.34 23.91 42.53 42.64 37.36 20.36 40.36 32.54 38.94 33.05 26.31 29.96 28.14 33.79 12.10% Average 91.68 87.13 92.96 91.05 90.70 84.57 90.15 89.09 90.19 88.50 87.70 86.64 87.17 89.12 25.99% -6.80% 47.73% 25.25% 23.71% -5.60% 23.98% 11.72% 34.54% 16.24% 26.59% 14.82% 20.90% Aurora 2 Clean Training - Results Clean 98.93 99.00 98.96 99.20 99.02 98.93 99.00 98.96 99.20 99.02 99.14 98.97 99.06 99.03 0.00% 20 db 97.76 93.77 98.00 96.61 96.54 92.42 96.95 94.36 96.54 95.07 96.99 97.13 97.06 96.05 31.16% 15 db 94.69 85.76 96.75 94.29 92.87 83.57 93.89 88.31 94.01 89.95 93.46 94.04 93.75 91.88 44.71% 10 db 86.37 69.47 90.75 86.42 83.25 70.06 83.71 76.41 85.00 78.80 84.83 84.16 84.50 81.72 46.71% 5 db 71.72 48.49 72.14 67.32 64.92 49.46 65.96 54.94 62.94 58.33 68.62 68.17 68.40 62.98 39.73% 0 db 45.72 21.22 37.52 40.02 36.12 24.44 37.70 30.54 32.15 31.21 41.60 40.90 41.25 35.18 22.00% -5dB 18.58 3.02 12.08 14.72 12.10 4.94 15.54 9.69 12.34 10.63 17.29 17.74 17.52 12.59 4.51% Average 79.25 63.74 79.03 76.93 74.74 63.99 75.64 68.91 74.13 70.67 77.10 76.88 76.99 73.56 32.00% 27.65% 46.78% 33.34% 34.66% 24.04% 36.70% 33.50% 41.69% 33.72% 32.32% 31.76% 32.04% 20.02% 33.80% Tabela 1. Rezultati avtomatskega razpoznavanja na bazi Aurora 2, št. sekvenc = 32883, d =1 Table 1. Aurora 2 based performance characteristic summary, sequence no. = 32883, d =1. Aurora 2 Multicondition Training - Results Clean 98.86 98.67 98.60 98.70 98.71 98.86 98.67 98.60 98.70 98.71 98.83 98.58 98.71 98.71 12.34% 20 db 98.07 97.94 98.33 98.24 98.15 97.67 97.61 97.26 97.59 97.53 97.88 97.52 97.70 97.81 16.45% 15 db 97.42 96.77 98.15 97.47 97.45 95.06 96.74 96.18 97.22 96.30 97.11 96.52 96.82 96.86 15.33% 10 db 95.24 93.77 96.93 95.12 95.27 90.91 94.83 92.93 94.91 93.40 94.14 93.11 93.63 94.19 6.63% 5 db 90.60 86.28 92.45 88.43 89.44 79.80 88.00 86.76 88.28 85.71 87.53 83.95 85.74 87.21 11.76% 0 db 73.90 61.94 78.47 71.95 71.57 54.90 69.92 68.36 71.68 66.22 63.74 59.98 61.86 67.48 19.58% -5dB 40.53 24.94 44.08 41.10 37.66 19.90 38.45 33.97 39.52 32.96 27.20 27.90 27.55 33.76 12.05% Average 91.05 87.34 92.87 90.24 90.37 83.67 89.42 88.30 89.94 87.83 88.08 86.22 87.15 88.71 20.37% -5.06% 47.06% 18.48% 21.00% -11.80% 18.38% 5.31% 32.86% 11.36% 28.86% 12.15% 20.78% Aurora 2 Clean Training - Results 17.06% Clean 98.93 99.00 98.96 99.20 99.02 98.93 99.00 98.96 99.20 99.02 99.14 98.97 99.06 99.03 0.00% 20 db 96.68 91.81 97.35 95.59 95.36 89.53 95.95 93.23 95.40 93.53 96.96 95.92 96.44 94.84 9.05% 15 db 93.28 83.98 96.39 92.41 91.52 81.36 92.23 87.18 92.59 88.34 93.58 93.02 93.30 90.60 34.59% 10 db 85.94 69.95 91.53 84.54 82.99 67.64 83.13 76.35 85.81 78.23 86.71 83.68 85.20 81.53 46.07% 5 db 72.12 49.61 78.11 66.31 66.54 48.54 66.87 58.07 68.00 60.37 72.06 67.93 70.00 64.76 42.51% 0 db 49.86 25.42 46.29 42.46 41.01 25.97 41.05 34.54 40.79 35.59 44.92 41.75 43.34 39.31 26.93% -5dB 22.35 8.16 15.12 17.80 15.86 8.23 17.71 12.17 16.85 13.74 19.07 19.44 19.26 15.69 7.87% Average 79.58 64.15 81.93 76.26 75.48 62.61 75.85 69.87 76.52 71.21 78.85 76.46 77.65 74.21 33.07% 28.47% 54.14% 31.40% 36.58% 21.12% 37.23% 35.56% 47.08% 34.94% 37.48% 30.52% 34.00% 35.42% Tabela 2. Rezultati avtomatskega razpoznavanja na bazi Aurora 2, št. sekvenc = 32883, d =2 Table 2. Aurora 2 based performance characteristic summary, sequence no. = 32883, d =2. Za izračun kratkočasovne transformacije DFT smo uporabili Hammingovo okno dolžine 200 vzorcev, dopolnjeno z ničlami na N = 256 vzorcev, s čimer smo povečali frekvenčno ločljivost in omogočili uporabo hitrega algoritma za izračun transformacije DFT. Zamik med posameznimi okni je bil 64 vzorcev oz. prekrivanje oken 192 vzorcev. Za izračun varianc spektralnih komponent posameznega okna šumnega signala smo uporabili 2T +1 = 9sosednjih oken (štiri naprej, štiri nazaj in trenutno okno), kar ustreza časovnemu intervalu 89 ms. Število sosednjih oken smo določi glede na doseženo največjo natančnost avtomatskega razpoznavanja govora. Za oceno statističnih lastnosti spektra šuma smo uporabili intervale dolžine 1000 ms oz. 125 sosednjih oken. Konstanto D, ki določa maksimalno vrednost Lagrangeovega množilnika ν, smo izbrali D = 15. Preliminarna testiranja so pokazala, da z večjimi vrednostmi (100 in več) zmanjšamo natančnost avtomatskega razpoznavanja. Po naši oceni zaradi prevelikega dušenja šumnega signala v območjih, kjer verjetnost prisotnosti govornega signala ni zanemarljiva. Za dušenje d smo izbrali dve vrednosti d =1(tabela 1) in d =2(tabela 2). 3.2 Interpretacija rezultatov Tabeli 1 in 2 prikazujeta absolutne in relativne vrednosti natančnosti razpoznavanja besed, predprocesiranih

80 Jarc, Babič s predlagano metodo. Podani so rezultati razpoznavanja zučenjem na čistih govornih vzorcih (Clean trainingresults) ter z učenjem na čistih in šumnih govornih vzorcih (Multicondition training-results). Absolutne vrednosti natančnosti razpoznavanja (HTK Word Accuracy) [8] za posamezno šumno okolje in razmerje SNR so podane v delu tabel z belim ozadjem. Relativno izboljšanje glede na natančnost razpoznavanja brez predprocesiranja [7] je izračunano po enačbi: rel. izb. = izboljšan osnovni 100 osnovni 100%, (24) kjer je izboljšan natančnost razpoznavanja z metodo predprocesiranja in osnovni natančnost razpoznavanja brez predprocesiranja. Relativno izboljšanje povprečne vrednosti rezultatov za razmerja SNR od 20 do 0 db je podano v spodnji vrstici podtabel tabel 1 in 2. V stolpcih desno je podano relativno izboljšanje povprečne vrednosti rezultatov pri enakem razmerju SNR. Skupno relativno izboljšanje je podano v spodnjem desnem kotu posamezne podtabele in je izračunano po enačbi skup. izb. =0, 4rel. izb. A +0, 4rel. izb. B +0, 2rel. izb. C, (25) kjer rel. izb. X pomeni povprečno relativno izboljšanje natančnosti razpoznavanja A, B in C dela baze. Iz rezultatov vidimo znatno izboljšanje natančnosti razpoznavanja besed za oba primera učenja. Relativno izboljšanje je bilo največje v območjih od 5 do 15 db. Za primer učenja na čistih vzorcih je doseglo vrednosti do 46,71 % (tabela 1) in za primer učenja na šumnih govornih vzorcih do 21,88 % (tabela 1). S primerjavo rezultatov tabel 1 in 2 vidimo, da faktor dušenja d ugodno vpliva na natančnost razpoznavanja le pri nižjih razmerjih SNR (5 db in manj). Podobno je razvidno tudi iz [10]. V [9] je bil za primer aditivno dodanega stacionarnega šuma (beli in obarvani šum) govornemu signalu, prikazan bistveno ugodnejši vpliv faktorja dušenja d na izboljšanje razmerja SNR. Vendar pa je bilo tudi pokazano, da se pri višjih vrednostih dušenja d (100 in več) poslabša razmerje SNR izhodnega procesiranega signala v območjih, kjer je vhodno razmerje SNR šumnega signala visoko. Slabše rezultate, ko imamo opravka z realnim šumom okolice, pripisujemo postopku predbeljenja. Le tega smo vselej izvedli z vzorci v prvih 100 ms posamezne sekvence. S spremembo frekvenčne karakteristike šuma znotraj sekvence smo pri ponovni oceni statističnih lastnosti šuma zajeli večji delež govornega signala in ga z dušenjem popačili. To domnevo posredno potrjujejo tudi rezultati razpoznavanja z učenjem na šumnih vzorcih. S povečanjem dušenja se je v veliki večini natančnost razpoznavanja zmanjšala. Iz rezultatov je razvidna nekoliko slabša uspešnost metode predprocesiranja v primerih zelo spremenljivih šumov, kot so: govor v ozadju (Bubble) in hrup v restavraciji (Restaurant). Kadar je bilo učenje opravljeno na šumnih vzorcih, je metoda zmanjšala povprečno natančnost razpoznavanja (maksimalno zmanjšanje: -6,80 % v tabeli 1 in -11,80 % v tabeli 2). Omenjena šuma sta po svojem frekvenčnem spektru najbolj podobna govornemu signalu in povzročata največ težav tudi drugim poznanim metodam odstranjevanja šuma. 4 Sklep V prispevku smo predstavili metodo dušenja šuma in prikazali njeno uspešnost pri izboljšanju natančnosti avtomatskega razpoznavanja govora baze Aurora 2. V osnovi je bila metoda predstavljena v [10]. V opisanem prispevku smo jo nadgradili z metodo določanja aktivnosti govora (VAD-Voice Activity Detection), izvedeno na podlagi maksimalne verjetnosti. S tem smo odpravili ročno nastavljanje vhodnih parametrov metode in povečali skupno relativno natančnost razpoznavanja iz 17,50 % na 20,02 % (Multicondition training) in iz 30,57 % na 35,42 % (Clean training). Postopek za predbeljenje je slabost predlagane metode predvsem, kadar imamo opravka z zelo spremenljivim šumnim okoljem, kot je govor v ozadju. Zato so nadaljnje raziskave usmerjene v smeri sprotnega določevanja parametrov predbeljenja oziroma da predbeljenje povsem izločimo. 5 Literatura [1] Y. Ephraim, H. L. Van Trees, A signal subspace approach for speech enhancement, IEEE Transactions on Speech and Audio Processing, Vol. 3, No. 4, July 1995, pp. 251-266. [2] R. J. Deller, J. G. Proakis, J. H. L. Hansen, Discrete-Time Processing of Speech Signal, Macmillan Publishing Company, 1993. [3] F. Xie, D. Van Compernolle, Speech Enhancement by Spectral Magnitude Estimation - A Unifying Approach, Speech Comm., volume 19, No. 2, pages 89-104, August 1996. [4] J. Sohn, W. Sung, A voice activity detector employing soft decision based noise spectrum adaptation, in Proc. Int. Conf. Acoustics, Speech, and Signal Processing, 1998, pp. 365-368. [5] J. Sohn, N. S. Kim, W. Sung, A Statistical Model-Based Voice Activity Detection, IEEE Signal Processing Letters, vol. 6, no. 1, january 1999. [6] Y. Ephraim, D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 1109-1121, Dec. 1984. [7] H. G. Hirsch, D. Pearce, The AURORA Experimental Framework for the Performance Evaluations of Speech Recognition Systems under Noisy Conditions, ISCA ITRW ASR2000 Automatic Speech Recognition: Challenges for the Next Millennium ; Paris, France, September 18-20, 2000.

Izboljšanje natančnosti razpoznavanja govora določanjem njegove aktivnosti na podlagi statističnega modela 81 [8] S. Young, J. Odell, D. Ollason, V. Valtchev, P. Woodland, The HTK Book (for HTK Version 3.0), July 2000, Microsoft Corporation. [9] B. Jarc, R. Babič, Dušenje šuma v govornem signalu s pomočjo statistične ocene, Zbornik desete elektrotehniške in računalniške konference ERK 2001, Portorož, Slovenija, Sept. 2001. [10] B. Jarc, R. Babič, Second Order Statistics Spectrum Estimation Method for Robust Speech Recognition, Proc. of the 7th European conference on Speech communication and technology, EUROSPEECH 2001, Aalborg, Denmark, pp. 229-232, Sep. 2001. Bojan Jarc je diplomiral leta 1992 in magistriral leta 1999 na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru. Zaposlen je na Fakulteti za elektrotehniko, računalništvo in informatiko, Inštitut za elektroniko, kot asistent. Njegovo raziskovalno področje so robustno avtomatsko razpoznavanje govora, obdelava signalov in digitalna sita. Rudolf Babič je diplomiral leta 1970 in magistriral leta 1980 na Fakulteti za elektrotehniko v Ljubljani. Doktoriral je leta 1991 na Fakulteti za elektrotehniko, računalništvo in informatiko v Mariboru. Zaposlen je na Fakulteti za elektrotehniko, računalništvo in informatiko, Inštitut za elektroniko, kot visokošolski predavatelj in je vodja Laboratorija za elektronske sisteme. Njegovo raziskovalno področje so obdelava signalov, načrtovanje in izdelava elektronskih vezij, sistemov in naprav ter načrtovanje in izvedba analognih in digitalnih sit.