Spracherkennung. Vorlesung Computerlinguistische Techniken Alexander Koller. 4. Dezember 2015

Similar documents
The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 10: Acoustic Models

Statistical NLP Spring The Noisy Channel Model

The Noisy Channel Model. Statistical NLP Spring Mel Freq. Cepstral Coefficients. Frame Extraction ... Lecture 9: Acoustic Models

Statistical NLP Spring Digitizing Speech

Digitizing Speech. Statistical NLP Spring Frame Extraction. Gaussian Emissions. Vector Quantization. HMMs for Continuous Observations? ...

Speech and Language Processing. Chapter 9 of SLP Automatic Speech Recognition (II)

The Noisy Channel Model. CS 294-5: Statistical Natural Language Processing. Speech Recognition Architecture. Digitizing Speech

Lecture 3: ASR: HMMs, Forward, Viterbi

Hidden Markov Models and Gaussian Mixture Models

Algebra. Übungsblatt 12 (Lösungen)

Lecture 5: GMM Acoustic Modeling and Feature Extraction

Hidden Markov Modelling

D-optimally Lack-of-Fit-Test-efficient Designs and Related Simple Designs

Automatic Speech Recognition (CS753)

Deep Learning for Speech Recognition. Hung-yi Lee

Ordinals and Cardinals: Basic set-theoretic techniques in logic

Hidden Markov Models and Gaussian Mixture Models

Automatic Speech Recognition (CS753)

Automatic Speech Recognition (CS753)

Hidden Markov Models

Oliver Kullmann Computer Science Department Swansea University. MRes Seminar Swansea, November 17, 2008

Statistical Machine Learning from Data

Grundlagen Fernerkundung - 12

On the Influence of the Delta Coefficients in a HMM-based Speech Recognition System

AGILE. Color available - A. Black White Chrome

Speech Recognition. CS 294-5: Statistical Natural Language Processing. State-of-the-Art: Recognition. ASR for Dialog Systems.

University of Cambridge. MPhil in Computer Speech Text & Internet Technology. Module: Speech Processing II. Lecture 2: Hidden Markov Models I

Hidden Markov Models

HIDDEN MARKOV MODELS IN SPEECH RECOGNITION

Why DNN Works for Acoustic Modeling in Speech Recognition?

10. Hidden Markov Models (HMM) for Speech Processing. (some slides taken from Glass and Zue course)

Introduction to Neural Networks

Segmental Recurrent Neural Networks for End-to-end Speech Recognition

Lecture 9: Speech Recognition. Recognizing Speech

1. Markov models. 1.1 Markov-chain

Hidden Markov Models. Aarti Singh Slides courtesy: Eric Xing. Machine Learning / Nov 8, 2010

Conditional Language Modeling. Chris Dyer

Augmented Statistical Models for Speech Recognition

Sequence labeling. Taking collective a set of interrelated instances x 1,, x T and jointly labeling them

Biophysics of Macromolecules

1. Einleitung. 1.1 Organisatorisches. Ziel der Vorlesung: Einführung in die Methoden der Ökonometrie. Voraussetzungen: Deskriptive Statistik

Automatic Speech Recognition (CS753)

Reformulating the HMM as a trajectory model by imposing explicit relationship between static and dynamic features

CS 136a Lecture 7 Speech Recognition Architecture: Training models with the Forward backward algorithm

Bayesian D-optimal Design

Linear Dynamical Systems (Kalman filter)

Algebra. Übungsblatt 10 (Lösungen)

ACS Introduction to NLP Lecture 2: Part of Speech (POS) Tagging

Boundary Contraction Training for Acoustic Models based on Discrete Deep Neural Networks

Lecture 9: Speech Recognition

Hidden Markov Models. By Parisa Abedi. Slides courtesy: Eric Xing

Speech Recognition HMM

Engineering Part IIB: Module 4F11 Speech and Language Processing Lectures 4/5 : Speech Recognition Basics

Lecture 10. Discriminative Training, ROVER, and Consensus. Michael Picheny, Bhuvana Ramabhadran, Stanley F. Chen

Note Set 5: Hidden Markov Models

Hidden Markov Models

Wavelets for Computer Graphics. AK Computergrafik WS 2005/06. Markus Grabner

SS BMMM01 Basismodul Mathematics/Methods Block 1: Mathematics for Economists. Prüfer: Prof. Dr.

Algebra. Übungsblatt 8 (Lösungen) m = a i m i, m = i=1

p(d θ ) l(θ ) 1.2 x x x

1. Positive and regular linear operators.

Numerical Methods of Electromagnetic Field Theory II (NFT II) Numerische Methoden der Elektromagnetischen Feldtheorie II (NFT II) /

An Introduction to Bioinformatics Algorithms Hidden Markov Models

Introduction to Machine Learning CMU-10701

Temporal Modeling and Basic Speech Recognition

Computer Science March, Homework Assignment #3 Due: Thursday, 1 April, 2010 at 12 PM

] Automatic Speech Recognition (CS753)

Organische Chemie IV: Organische Photochemie

Chapter 9 Automatic Speech Recognition DRAFT

Organische Chemie IV: Organische Photochemie

T Automatic Speech Recognition: From Theory to Practice

HMM: Parameter Estimation

Sparse Models for Speech Recognition

Counterexamples in the Work of Karl Weierstraß

12. Lecture Stochastic Optimization

Estimation of Cepstral Coefficients for Robust Speech Recognition

Covariograms of convex bodies in the plane: A remark on Nagel s theorem

Statistical Methods in Particle Physics

CS 136 Lecture 5 Acoustic modeling Phoneme modeling

Spatial Diffuseness Features for DNN-Based Speech Recognition in Noisy and Reverberant Environments

Organische Chemie IV: Organische Photochemie

Hidden Markov Models. AIMA Chapter 15, Sections 1 5. AIMA Chapter 15, Sections 1 5 1

Primzahltests und das Faktorisierungsproblem

Machine Learning for natural language processing

Statistical Sequence Recognition and Training: An Introduction to HMMs


Hidden Markov Models

Deep Learning for Automatic Speech Recognition Part I

Robust Speech Recognition in the Presence of Additive Noise. Svein Gunnar Storebakken Pettersen

Speech and Language Processing

Ngram Review. CS 136 Lecture 10 Language Modeling. Thanks to Dan Jurafsky for these slides. October13, 2017 Professor Meteer

Graphical Models Seminar

Quantum physics from coarse grained classical probabilities

Monaural speech separation using source-adapted models

Übungen zur Quantenmechanik (T2)

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Language Models. Tobias Scheffer

Shankar Shivappa University of California, San Diego April 26, CSE 254 Seminar in learning algorithms

Observable Operator Models

ASR using Hidden Markov Model : A tutorial

STA 414/2104: Machine Learning

Transcription:

Spracherkennung Vorlesung Computerlinguistische Techniken Alexander Koller 4. Dezember 2015

Spracherkennung

Spracherkennung (automatic speech recognition = ASR) T she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s)

Spracherkennung (automatic speech recognition = ASR) T she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s) sh she AFT 0 0.257 Time (s) iy

Das Noisy-Channel-Modell Annahme: Satz wurde durch verrauschten Übertragungskanal verzerrt. Will aus verrauschtem Signal den ursprünglichen Satz rekonstruieren. one two three decoding one two three W O Frage: Gegeben akustischen Input O, was ist der wahrscheinlichste Satz W, der zu O verzerrt worden sein kann?

Noisy-Channel-Modell Wir formalisieren Rekonstruktion von W wie folgt: Ŵ = arg max W = arg max W = arg max W P (W O) P (O W ) P (W ) P (O) P (O W ) P (W ) noisy channel hier: akustisches Modell Original-Signal hier: Sprachmodell

HMM-basierte ASR one two three w ah n t uw th r iy Aussprache-Lexikon w ah n P(one) P(one two) P(three) P(two) t P(two two) uh P(three two) th r iy

HMM-basierte ASR one two three w ah n t uw th r iy ah b ah m ah f Aussprache-Lexikon Subphon-HMM für jedes Phon w b w m w f ah b ah m ah f n b n m n f P(one) P(one two) P(three) P(two) t b t m t f uh b uh m uh f P(two two) P(three two) th b th m th f r b r m r f iy b iy m iy f

HMM-basierte ASR one two three w ah n t uw th r iy ah b ah m ah f Aussprache-Lexikon Subphon-HMM für jedes Phon w b w m w f ah b ah m ah f n b n m n f P(one) P(one two) P(three) P(two) t b t m t f uh b uh m uh f P(two two) P(three two) th b th m th f r b r m r f iy b iy m iy f

Übersicht Verwende HMM mit diesen Bestandteilen: Zustände sind Subphone (Anfang/Mitte/Ende eines Phons) Beobachtungen sind Vektoren von akustischen Features HMM codiert Phon-Sequenz für jedes Wort im Lexikon Sprachmodell = Übergänge vom Ende eines Worts zu Anfang eines Worts Wir müssen uns überlegen: W.verteilung über akustische Featurevektoren? Training? Viterbi klar; aber effizient genug?

Spektrogramme Intensität T she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s)

Spektrogramme Intensität T she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s) Fourier-Transformation Frequenz she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s)

Spektrogramme Intensität T she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s) Fourier-Transformation Frequenz F0 she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s)

Spektrogramme Intensität T she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s) Fourier-Transformation Frequenz Formanten F0 she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s)

Akustische Features Frequenz she just had a baby sh iy j ax s h ae dx ax b ey b iy 0 1.059 Time (s) Frames (25 ms Breite, alle 10 ms) FT inverse FFT magnitude spectrum log-magnitude spectrum cepstrum akustische Features für jeden Frame (39-dim. Vektor von Float-Zahlen): FT 12 cepstral 12 delta cepstral 12 double delta cepstral 1 Energie 1 delta Energie 1 double delta Energie

Stetige W.verteilungen Beobachtungen sind jetzt Vektoren von Zahlen. muss HMM anpassen: unendlicher Wertebereich für Emissions-W. (genaugenommen: nicht abzählbarer) solche Fälle kann man mit stetigen W.verteilungen beschreiben Dichtefunktion (pdf) f(x) P (x 1 apple X apple x 2 )= Z x2 x 1 f(x) dx

Die Normalverteilung Wichtigste stetige WV ist die Normalverteilung (oder Gauß-Verteilung). eindeutig charakterisiert durch Mittelwert μ und Varianz σ 2 N (x; µ, )= 1 (x µ) 2 p exp 2 2 2 2

Emissions-W. im HMM Definiere jetzt W., im Zustand j den D-dim. Vektor o = (o 1,, o D ) auszugeben: b j (o) = DY d=1 N (o d ; µ jd, Bemerkungen: 2 jd) = Ignoriert statistische Korrelationen zwischen Dimensionen. Aber cepstral Features nur schwach korreliert. b j (o) nicht wirklich eine W. (aber das ist okay). Gauß-Verteilung in der Praxis zu einfach; verwende stattdessen Gaussian Mixture Models (GMM). Modell-Parameter: μ jd, σ 2 jd für alle j, d. DY d=1 q 1 exp 2 jd 2! (o d µ jd ) 2 2 2 jd

Decoding Decoding = berechne beste Sequenz von (Sub)phonen für akustischen Input, laut HMM. Kann man mit Viterbi machen. Problem: Laufzeit von Viterbi ist O(N 2 T), und N ist sehr groß. In der Praxis verwendet man Beam Search: wähle Faktor θ < 1 in Schritt t+1 schauen wir nur Zustände q j als Vorgänger an, falls V t (j) > θ max i V t (i) erhöht Decoder-Geschwindigkeit dramatisch; auch in vielen anderen Situationen nützlich

Aufnahme Training

Training Aufnahme Feature-Vektoren T

Training manuelle Transkription one two three Aufnahme Transkription Feature-Vektoren T

Training manuelle Transkription one two three Aufnahme Transkription Feature-Vektoren T Textkorpus

Training manuelle Transkription one two three Aufnahme Transkription Feature-Vektoren T Initiales HMM LM Textkorpus

Training manuelle Transkription one two three Aufnahme Transkription Feature-Vektoren T EM-Training Initiales HMM LM Textkorpus

EM für Gaussian HMMs Adaptiere M-Step des Forward-Backward-Algorithmus für normalverteilte Emissions-W.: µ jd = P T t=1 t(j) o td P T t=1 t(j) 2 jd = P T t=1 t(j) (o td µ jd ) 2 P T t=1 t(j) Initialisiere Übergangsw. zu 0.5 (für erlaubte Übergänge) bzw. zu 0 (für verbotene).

Hard EM Verwendung des Forward-Backward-Algorithmus ( richtiges oder weiches EM) korrekt, aber langsam. In der Praxis häufige Approximation: Viterbi-EM (aka hard EM ): wir berechnen in jeder Iteration von EM die eine beste Zustandssequenz mit Viterbi und tun dann so, als ob das die wahre Zustandssequenz ist, und verwenden einfach Maximum-Likelihood-Schätzung wiederhole, bis Parameter konvergieren (müssen sie theoretisch nicht, aber in der Praxis geht es oft) in der Praxis 1-2 Größenordnungen schneller als richtige EM (Rodriguez & Torres 03).

Evaluation D total Übliches Fehlermaß ist die Word Error Rate (WER): WER = 100 Insertions + Substitutions + Deletions words in correct transcript Berechne minimale Anzahl von ISD effizient als Minimum Edit Distance (= Levenshtein-Distanz). REF: i *** ** UM the PHONE IS i LEFT THE portable **** PHONE UPSTAIRS last night HYP: i GOT IT TO the ***** FULLEST i LOVE TO portable FORM OF STORES last night Eval: I I S D S S S I S S WER = 100 * (6 + 3 + 1) / 13 = 76.9%

Stand der Kunst (2012) TASK HOURS OF TRAINING DATA DNN-HMM GMM-HMM WITH SAME DATA GMM-HMM WITH MORE DATA SWITCHBOARD (TEST SET 1) 309 18.5 27.4 18.6 (2,000 H) SWITCHBOARD (TEST SET 2) 309 16.1 23.6 17.1 (2,000 H) ENGLISH BROADCAST NEWS 50 17.5 18.8 BING VOICE SEARCH (SENTENCE ERROR RATES) 24 30.4 36.2 GOOGLE VOICE INPUT 5,870 12.3 16.0 (22 5,870 H) YOUTUBE 1,400 47.6 52.3 DNN = deep neural networks (Hinton et al. 2012)

Stand der Kunst (2012) TASK HOURS OF TRAINING DATA DNN-HMM GMM-HMM WITH SAME DATA GMM-HMM WITH MORE DATA SWITCHBOARD (TEST SET 1) 309 18.5 27.4 18.6 (2,000 H) SWITCHBOARD (TEST SET 2) 309 16.1 23.6 17.1 (2,000 H) ENGLISH BROADCAST NEWS 50 17.5 18.8 BING VOICE SEARCH (SENTENCE ERROR RATES) 24 30.4 36.2 GOOGLE VOICE INPUT 5,870 12.3 16.0 (22 5,870 H) YOUTUBE 1,400 47.6 52.3 DNN = deep neural networks (Hinton et al. 2012)

Zusammenfassung Spracherkennung (ASR) zentrales Problem in der Computerlinguistik. Klassischer Ansatz verwendet bekannte Bausteine: n-gramm-sprachmodelle Hidden Markov Models mit stetigen Ausgabew. Viele Algorithmen direkt einsetzbar. Topaktuell: Tiefe neuronale Netze statt HMM.