Strojno učenje 3 (II dio) Struktura metoda/algoritama strojnog učenja. Tomislav Šmuc

Similar documents
Strojno učenje. Metoda potpornih vektora (SVM Support Vector Machines) Tomislav Šmuc

Strojno učenje. Metoda potpornih vektora (SVM Support Vector Machines) Tomislav Šmuc

LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

TEORIJA SKUPOVA Zadaci

Projektovanje paralelnih algoritama II

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

KLASIFIKACIJA NAIVNI BAJES. NIKOLA MILIKIĆ URL:

KVADRATNE INTERPOLACIJSKE METODE ZA JEDNODIMENZIONALNU BEZUVJETNU LOKALNU OPTIMIZACIJU 1

Algoritam za množenje ulančanih matrica. Alen Kosanović Prirodoslovno-matematički fakultet Matematički odsjek

Strojno učenje. Ansambli modela. Tomislav Šmuc

Strojno učenje 3 (I dio) Evaluacija modela. Tomislav Šmuc

Mathcad sa algoritmima

Quasi-Newtonove metode

Šta je to mašinsko učenje?

Metoda parcijalnih najmanjih kvadrata: Regresijski model

Fajl koji je korišćen može se naći na

Optimization: Nonlinear Optimization without Constraints. Nonlinear Optimization without Constraints 1 / 23

Nelder Meadova metoda: lokalna metoda direktne bezuvjetne optimizacije

Chapter 4. Unconstrained optimization

KRITERIJI KOMPLEKSNOSTI ZA K-MEANS ALGORITAM

Hornerov algoritam i primjene

Geometrijski smisao rješenja sustava od tri linearne jednadžbe s tri nepoznanice

Oracle Spatial Koordinatni sustavi, projekcije i transformacije. Dalibor Kušić, mag. ing. listopad 2010.

REVIEW OF GAMMA FUNCTIONS IN ACCUMULATED FATIGUE DAMAGE ASSESSMENT OF SHIP STRUCTURES

Slika 1. Slika 2. Da ne bismo stalno izbacivali elemente iz skupa, mi ćemo napraviti još jedan niz markirano, gde će

ODREĐIVANJE DINAMIČKOG ODZIVA MEHANIČKOG SUSTAVA METODOM RUNGE-KUTTA

Šime Šuljić. Funkcije. Zadavanje funkcije i područje definicije. š2004š 1

Overfitting, Bias / Variance Analysis

Formule za udaljenost točke do pravca u ravnini, u smislu lp - udaljenosti math.e Vol 28.

Optimization Methods for Machine Learning

Introduction to Logistic Regression and Support Vector Machine

Neprekidan slučajan vektor

Announcements Kevin Jamieson

Uvod u relacione baze podataka

Položaj nultočaka polinoma

Machine Learning (CSE 446): Neural Networks

Nilpotentni operatori i matrice

Povratne neuronske mreže. Martin Tutek 6. Prosinac, 2017.

NEURONSKE MREŽE 1. predavanje

Zlatko Mihalić MOLEKULARNO MODELIRANJE (2+1, 0+0)

Numeričke metode u ekonomiji Dr. sc. Josip Matejaš, EFZG

Conjugate Directions for Stochastic Gradient Descent

GENERALIZIRANI LINEARNI MODELI. PROPENSITY SCORE MATCHING.

pretraživanje teksta Knuth-Morris-Pratt algoritam

Iterativne metode za rješavanje linearnih sustava

Stochastic Gradient Descent

Maximum Likelihood Estimation

Ariana Trstenjak Kvadratne forme

Metode rješavanja kvadratičnog problema pridruživanja

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku

1 Pogreške Vrste pogrešaka Pogreške zaokruživanja Pogreške nastale zbog nepreciznosti ulaznih podataka

APPROPRIATENESS OF GENETIC ALGORITHM USE FOR DISASSEMBLY SEQUENCE OPTIMIZATION

Sequence Modelling with Features: Linear-Chain Conditional Random Fields. COMP-599 Oct 6, 2015

Programming, numerics and optimization

Metode praćenja planova

Machine Learning Basics Lecture 4: SVM I. Princeton University COS 495 Instructor: Yingyu Liang

Linearno programiranje i primjene

STA141C: Big Data & High Performance Statistical Computing

Regression with Numerical Optimization. Logistic

MATHEMATICAL ANALYSIS OF PERFORMANCE OF A VIBRATORY BOWL FEEDER FOR FEEDING BOTTLE CAPS

Data Mining (Mineria de Dades)

Procjena funkcije gustoće

Case Study 1: Estimating Click Probabilities. Kakade Announcements: Project Proposals: due this Friday!

FALL 2018 MATH 4211/6211 Optimization Homework 4

Vektori u ravnini i prostoru. Rudolf Scitovski, Ivan Vazler. 10. svibnja Uvod 1

Raspoznavanje objekata dubokim neuronskim mrežama

Simetrične matrice, kvadratne forme i matrične norme

Red veze za benzen. Slika 1.

ECS289: Scalable Machine Learning

Midterm Review CS 6375: Machine Learning. Vibhav Gogate The University of Texas at Dallas

Gaussian and Linear Discriminant Analysis; Multiclass Classification

PARALELNI ALGORITMI ZA PROBLEM GRUPIRANJA PODATAKA

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Sveučilišni nastavnički studij matematike i informatike. Sortiranje u linearnom vremenu

Metode izračunavanja determinanti matrica n-tog reda

Lecture 1: Supervised Learning

Reinženjering poslovnih procesa Business Process Reengineering. Urednik serije/ Editor of serias: Alempije V.Veljović

Maja Antolović Algoritmi u teoriji brojeva

PRIMJENA METODE PCA NAD SKUPOM SLIKA ZNAKOVA

Matematika i statistika

Primjena Fuzzy ARTMAP neuronske mreže za indeksiranje i klasifikaciju dokumenata

Adaptive Gradient Methods AdaGrad / Adam. Machine Learning for Big Data CSE547/STAT548, University of Washington Sham Kakade

Konstrukcija i analiza algoritama

Neural Network Training

Teorem o reziduumima i primjene. Završni rad

Statistics 580 Optimization Methods

1 Konveksni skupovi i konveksne funkcije

Sparse representations of signals for information recovery from incomplete data

Ad Placement Strategies

Convex Optimization CMU-10725

Linear Classification. CSE 6363 Machine Learning Vassilis Athitsos Computer Science and Engineering Department University of Texas at Arlington

Bayesian Machine Learning

Midterm Review CS 7301: Advanced Machine Learning. Vibhav Gogate The University of Texas at Dallas

Mirela Nogolica Norme Završni rad

Logistic Regression Review Fall 2012 Recitation. September 25, 2012 TA: Selen Uguroglu

ECS171: Machine Learning

Is the test error unbiased for these programs?

ALGORITAM FAKTORIZACIJE GNFS

Warm up. Regrade requests submitted directly in Gradescope, do not instructors.

MIDTERM: CS 6375 INSTRUCTOR: VIBHAV GOGATE October,

Transcription:

Strojno učenje 3 (II dio) Struktura metoda/algoritama strojnog učenja Tomislav Šmuc PMF, Zagreb, 2013

Sastavnice (nadziranog) problema učenja Osnovni pojmovi Ulazni vektor varijabli (engl. attributes, features): x = x 1, x 2,, x d Broj ulaznih varijabli: d Izlazna ili ciljna varijabla (engl. target variable): y Primjer za učenje (engl. training example): x, y Skup primjera za učenje (engl. training examples): D = x i, y i ; i = 1 N Broj primjera za učenje: N Dani podaci Nepoznata ciljna (idealna) funkcija (koncept): f: X Y, y = f x

Sastavnice (nadziranog) problema učenja Cilj problema nadziranog učenja: za dani skup primjera za učenje naučiti funkciju h: X Y t.d. h(x) f x da h(x) bude dobar prediktor za odgovarajuću vrijednost y Regresija: ako ciljna varijabla y prima kontinuirane vrijednosti Klasifikacija: ako ciljna varijabla y kategorička odnosno može poprimiti smo mali broj diskretnih vrijednosti Hipoteza: h: X Y, h H Skup, prostor hipoteza (klasa hipoteze): H npr. skup svih klasifikatora: H = h w : h w x = 1 w T x 0, w R d+1 Skup, prostor konzistentnih hipoteza: VS H,D Podskup hipoteza iz H konzistentnih s primjerima za učenje iz D VS H,D = h H konzistentna h D

Skup hipoteza Veličina skupa hipoteza: fiksna varijabilna Parametrizacija hipoteze opis hipoteze: skupom simboličkih (diskretnih) varijabli skupom kontinuiranih parametara Evaluacija hipoteze s obzirom na determinističku hipotezu primjer za učenje je ili konzistentan ili ne konzistentan s obzirom na stohastičku hipotezu primjer za učenje je više ili manje vjerojatan

Regresija i klasifikacija Regresija x1 x2 y 0.5 3.4 2.3 1.0 2.3 1.5 0.8 0.2 3.3 5.1 4.1 4.0 y R Razlika je u obliku ciljne varijable! Klasifikacija x1 x2 y 0.5 3.4 x 1.0 2.3 o 0.8 0.2 o 5.1 4.1 x y x, o 21.2.2013 Strojno učenje: Teorija 5

Regresija i klasifikacija Regresija Klasifikacija 21.2.2013 Strojno učenje: Teorija 6

Algoritam učenja Svaki algoritam za učenje uključuje: Reprezentaciju Linearna regresija, stabla odluke, skup pravila, neuronske mreže, strojevi potpornih vektora, ansambli Evaluaciju <= mjera greške Točnost, preciznost i odaziv, kvadratna greška, Optimizaciju / pretraživanje nad prostorom parametara Pretraživanje prostora: (Hill-climbing, Greedy search, pattern search) Kombinatorna optimizacija <= diskretna reprezentacija Iscrpna pretraga Konveksna optimizacija gradijentni spust (engl. gradient decent) Optimizacija uz ograničenja Linearno programiranje

Dijagram učenja h = arg min J(h) h H w = arg min J h w x, y w

Reprezentacija modela za učenje: primjer Hipoteza: Parametri: h w x = w 0 + w 1 x 1 w = w 0, w 1 Mjera greške ili funkcija troška: Cilj: J w = 1 2N N i=1 h x i y i 2 min J w w optimizacijski problem => algoritmi optimizacije

klasifikacija regresija Reprezentacija modela: linearni modeli Linearna regresija (engl. linear regression) Hipoteza: h w x = w T x Funkcija troška: J h = 1 2N N i=1 h w x i y i 2 Lokalno otežana linearna regresija (engl. locally weighted linear regression) Hipoteza: h w x = w T x Funkcija troška: J h = 1 2N Logistička regresija (engl. logistic regression) N i=1 s i h w x i y i 2 Želimo: h w x 0,1 za binarnu klasifikaciju: y 0,1 Hipoteza: h w x = g w T 1 x = P y = 1 x; w 1 + e wt x Funkcija troška: J w = 1 N N i=1 y i log h w x i + 1 y i log 1 h w x i

Reprezentacija modela: nelinearna klasifikacija Neuronska mreža za klasifikaciju (engl. neural networks) (2) a 1 = 1 (1) (1) (1) g(w10 x 0 + w 11 x1 + w 12 x2 + w 13 x3 ) (2) a 2 = 1 (1) (1) (1) g(w20 x 0 + w 21 x1 + w 22 x2 + w 23 x3 ) ulazni sloj skriveni sloj izlazni sloj (2) a 3 = 1 (1) (1) (1) g(w30 x 0 + w 31 x1 + w 32 x2 + w 33 x3 ) h w x = a 3 1 = g(w 2 (2) (2) (2) (2) (2) (2) (2) 10 a 0 + w11 a1 + w12 a2 + w13 a3 ) Tipično g(x): g x = 1/(1 e x )

Reprezentacija modela: nelinearna klasifikacija K najbližih susjeda (engl. K nearest neighbors, k-nn) primjer s 1-NN ne-parametarski algoritam učenja

Oblici hipoteza: klasifikacija Linearni model Nelinearni model 21.2.2013 Strojno učenje: Teorija 16

Reprezentacija modela: klasifikacija Pravila (engl. Rules) IF (x1>0.5) AND (x1<4.5) AND (x2>0.5) AND (x2<4.0) THEN y = x IF (x1>5.0) AND (x1<7.0) AND (x2>4.5) AND (x2<6.5) THEN y = x Stablo odluke (engl. Decision tree)

Struktura Parametarski i ne-parametarski algoritmi Parametarski-ne-parametarski algoritmi (Podjela koja nije sasvim jasno definirana) Parametarski algoritmi Algoritmi kod kojih je broj parametara model fiksan t.j. ne zavisi od broja primjera u skupu za učenje (Linearna regresija, NB, NN) Ne-parametarski algoritmi Algoritmi kod kojih model zavisi (raste) s brojem primjera u skupu primjera za učenje dakle ne može se komprimirati u fiksni skup parametara (primjer => k-nn) SVM? 18

Struktura Slobodni parametri algoritama Slobodni parametri algoritama Većina algoritama SU ima slobodne parametre (korisnik ih zadaje/određuje prilikom učenja modela) D ={x, y} A) Određivanje/optimizacija slobodnih parametara (S) (korisnik, ili korisnički definirana metoda pretraživanja/optimizacije) B) Optimizacija parametara modela (w) M =f (x, y, w*) w = g(d,s) w = g(d,s) optimalni set parametara modela w ovisi o podacima D i odabiru slobodnih parametara algoritma S 19

Struktura Slobodni parametri algoritama složenost modela... Slobodni parametri tipično određuju kompleksnost modela/hipoteza h w x = w 0 + w 1 x 1 h w x = w 0 + w 1 x 1 + w 2 x 1 2 h w x = w 0 + w j x 1 j n j=1

Struktura Slobodni parametri algoritama Problem - Regresija Slobodni parametri određuju stupanj polinoma http://arachnoid.com/polysolve/index.html 21.2.2013 Strojno učenje: Teorija 21

Struktura Slobodni parametri algoritama Problem - Klasifikacija Slobodni parametri određuju složenost granične plohe (npr. broj čvorova u neuralnoj mreži) složenost modela 21.2.2013 Strojno učenje: Teorija 22

Struktura Generativni i diskriminativni Generativni i diskriminativni algoritmi Generativni algoritmi/modeli (Bayes modeli) Input i output varijable se modeliraju preko združene distribucije vjerojatnosti, koristeći uvjetne vjerojatnosti, Modelira se ustvari združena vjerojatnost: p(c, x) = f x ; C oznaka klase generativni jer se modeli mogu koristiti za generiranje sintetičkih primjera/podataka dodatni zadatak generator = model podataka! Deskriptivni objašnjavaju podatke Algoritmi: Naivni Bayes, Mix Gauss, HMM, Bayesove mreže 23

Struktura Generativni i diskriminativni modeli Taksonomija algoritama strojnog učenja Diskriminativni Ne modeliraju eksplicitno distribucije varijabli, nego direktno mapiraju ulazne varijable na ciljnu varijablu (granična ploha koja razdvaja klase, ili funkcija koja aproksimira ponašanje ciljne varijable regresija) Modelira se direktno aposteriori vjerojatnost: p C k x = f(x) Nema dodatnog zadatka - Black-box model! Algoritmi: NN-neuralne mreže, SVM-metoda potpornih vektora, Logistička regresija. 24

Struktura Generativni i diskriminativni modeli Generativni i diskriminativni modeli x 1 p(x C =1) p(x C =-1) p(c x =1) x 2 25

Struktura Generativni i diskriminativni modeli Generativni i diskriminativni modeli Generativni C 1 C p(x C 2 ) 2 p(x C 1 ) Diskriminativni p(c 1 x) p(c 2 x) Klasifikacijska funkcija p(c 2 ) 26

Struktura Generativni i diskriminativni modeli Generativni algoritmi/ modeli Model pretpostavlja neku parametarsku formu distribucija vjerojatnosti, te algoritam određuje vrijednosti parametara na osnovu podataka p x C k ) = p(x Ck, w) Parametre w određujemo, pod pretpostavkom i.i.d. podataka maksimiziranjem (optimizacija!) vjerojatnosti p(x Ck, w) (Maximum Likelihood - ML), odnosno njenog logaritma N ML procjena w : log (p x C k, w log p(x i C k, w) i=1 w ML argmax w log( p(x Ck, w)) Podaci koje imamo - najvjerojatniji su uz parametre w ML 28

Struktura Generativni i diskriminativni modeli Bayesovo pravilo za generativne algoritme Izvođenje generativnih modela radi njihove usporedbe unatrag kolika je vjerojatnost parametara uz dane podatke? Vjerojatnost podataka (likelihood) Posteriorna vjerojatnost p w C k, x = p(x Ck, w) p x w p(w) p(w Ck) apriorna vjerojatnost Evidencija (podaci)= p(x) Posteriorna vjerojatnost je ono što nam treba: Kombinacija apriorne vjerojatnosti parametara za svaku klasu sa vjerojatnosti podataka za tu klasu normaliziranom sa podacima ( poster. vj. podataka =1!) 29

Struktura Optimizacija modela Metode optimizacije modela u algoritmima strojnog učenja 30

Struktura Optimizacija modela Većina algoritama u SU predstavljaju određeni oblik optimizacije odnosno pretraživanja Učenje ~ Optimizacija optimiramo parametre modela koristeći funkciju greške odnosno maksimalnu izvjesnost/vjerojatnost (max likelihood -MLE) brža optimizacijska metoda => efikasnije učenje modela... Vrlo često funkcija greške uključuje regularizacijski dio 31

Struktura Optimizacija modela A) Određivanje/optimizacija slobodnih parametara (S) - Korisnik zadaje S (iskustveno) - Pretraživanje (Grid search) - Optimizacija (meta-heuristike: genetski algoritmi) B) Optimizacija/pretraživanje parametara modela (w) - Pretraživanje (greedy, hill-climbing, pattern search ) - Konveksni opt. problemi => Gradijentne metode - Ograničenja => Lagrangeovi Multiplikatori - Skaliranje => batch, online učenje 32

Struktura Optimizacija modela Hill-climbing, greedy pretraživanje Primjeri algoritama: stabla odlučivanja (DT), učenje pravila (RL) Ovi algoritmi baziraju se na razdvajanje ili prekrivanje primjera iz skupa za učenje U određenom trenutku (iteraciji) tražimo najbolji uvjet, ili pravilo koje: a) Najbolje razdvaja dvije klase primjera (DT) b) Najbolje pokriva određeni dio podataka neke klase (RL) To ne mora voditi prema najboljem modelu (uzimamo lokalno najbolje rješenje - pohlepno=greedy), no uvijek ide u smjeru smanjenja greške (do prvog vrha - hill-climbing) U principu konačni model/hipoteza s obzirom na grešku predstavlja lokalni optimum, ali je zato postupak efikasan. 33

Struktura Optimizacija modela Funkcija greške nad prostorom parametara - Minimiziramo funkciju greške - Ili - Maksimiziramo vjerojatnost podataka u generativnom modelu (Max Likelihood) - Učenje je kretanje po plohi - funkcije greške - E n -! Ako su podaci i.i.d. funkcija greške je suma individualnih funkcija greške (za svaku točku trening skupa zasebno (E n )! E(w) w 2 E(w 1,w 2 ) w w 1 34

Struktura Optimizacija modela Gradijent na površini funkcije greške Kako se micati po površini E(w)? Ako mijenjamo w k a sve ostalo držimo fiksnim da li se greška smanjuje? E => ako je E diferencijabilna izračunati parcijalne derivacije za svaki w k w k : E w = ( E w 1, E w 2,, E wd ) Vektor parcijalnih derivacija = gradijent E(w). Negativni gradijent usmjeren je u pravcu najstrmijeg spusta (steepest gradient) u prostoru w Tri osnovna problema: 1. Kako efikasno izračunati gradijent 2. Kako minimizirati grešku kad imamo gradijent 3. Gdje ćemo završiti na površini E(w) 35

Struktura Optimizacija modela Gradijent na površini funkcije greške parcijalne derivacije Najstrmiji gradijent: w t+1 = w t ε E(w) Ako su koraci promjene w dovoljno mali postupak će konvergirati u minimum (barem lokalni) No, ako nas brine brzina konvergencije onda: Veličina koraka ε (slobodni parametar) se mora pažljivo odrediti - za svaki problem Površina greške može biti zakrivljena sasvim različito za različite dimenzije w k to znači da gradijent ne pokazuje u smjeru najbližeg minimuma! 36

Struktura Optimizacija modela Gradijent na površini funkcije greške parcijalne derivacije Površina greške može biti zakrivljena sasvim različito za različite dimenzije w k to znači da gradijent ne pokazuje u smjeru najbližeg minimuma! w 2 E(w 1,w 2 ) E w w 1 37

Struktura Optimizacija modela Gradijentno spuštanje 38

Struktura Optimizacija modela Adaptacija koraka gradijentno spuštanje Nema generalnog recepta za adaptaciju koraka Bold driver heuristika: Nakon svakog pomaka (epohe prolaz-sumiranje greške preko cijelog skupa primjera za učenje): - Ako se greška smanjuje: - povećanje ε ε = ε ρ - Ako se greška povećava: - smanjenje ε ε = ε σ; - vraćanje prethodne vrijednosti parametara w t = w t 1 Tipične vrijednosti ρ~1.1; σ~0.5 39

Struktura Optimizacija modela Gradijentno spuštanje i konveksnost prostora Konveksnost poželjno svojstvo konveksni skup sadrži segment između bilo koje dvije točke u skupu x 1, x 2 S (λx 1 + 1 λ x 2 ) S; gdje je λ [0,1] Konveksna funkcija je ona za koju vrijedi Prostor funkcije greške za neke algoritme (linearna regresija, logistička regresija) je konveksan samo jedan minimum (globalni) U većini slučajeva u alg. SU nemamo konveksni optimizacijski problem! f R d R je konveksna funkcija ako je njena domena konveksni skup za sve λ [0,1]: (Jensenova nejednakost) E λw 1 + 1 λ w 2 E λf w 1 + 1 λ f(w 2 E(w) (w 1,f(w 1 )) (w 2,f(w 2 )) w 40

Struktura Optimizacija modela Linijsko pretraživanje (Line search) LP: Umjesto da radimo fiksne korake u smjeru negativnog gradijenta, radimo pretraživanje po tom smjeru dok ne nadjemo minimum (na toj liniji) Tipično bisekcija, kojom se traži treća točka koja w 3 koja zadovoljava: E w 3 < E w 2 E w 3 < E w 1 E(w) (w 1,E(w 1 )) (w 2,E(w 2 )) (w 3,E(w 3 )) Smjer pretraživanja 41

Struktura Optimizacija modela Gradijentno spuštanje - ubrzanje konvergencije Korištenje informacije o zakrivljenosti prostora Matrica parcijalnih derivacija drugog reda (Hessian matrix) H ij = 2 E/ w i w j Svojstveni vektori/vrijednosti H određuju smjer i veličinu zakrivljenosti u svakom (max korak ~ 2/λ max ) U praksi adaptacija koraka! 42

Struktura Optimizacija modela Lokalna kvadratna aproksimacija (Newton s method) Taylorov red za vrijednost E oko neke točke w 0 : E w w 0 E w 0 + w w 0 T E w w0 + w w 0 T H w 0 2 (w w 0 ) E(w) w * = w 0 H 1 (w) E w w0 (w 0,E(w 0 )) NM skok u minimum lokalne kvadratne aproksimacije w* Smjer pretraživanja 43

Struktura Optimizacija modela Newtonova metoda i metode drugog reda Sve metode koje koriste zakrivljenost funkcije greške ili H (Hessian) matricu Brže konvergiraju ali mogu biti vrlo skupo (računanje i spremanje H ) Najčešći slučaj - kompromis: Nešto između metoda prvog i drugog reda! Npr. sekvenca gradijenata (prve derivacije) može poslužiti za aproksimiranje zakrivljenosti (H) može biti i bolje od prave H, jer možemo ograničiti aproksimaciju Kvazi Newtonove metode: Metoda Konjugiranih Gradijenata (CG) Broyden-Fletcher-Goldfarb-Shanno (BFGS) Davidon-Fletcher-Powell (DVP) Levenberg-Marquardt (LM) Sve aproksimiraju matricu H i koriste je zajedno sa smjerom (gradijentom) uz kombiniranje sa nekom od metoda fiksnih-koraka, analitički određenih koraka ili linijskog pretraživanja. 44

Struktura Optimizacija modela Metoda konjugiranih (vezanih) gradijenata Iskustveno pravilo: na kraju iteracije jednog linijskog pretraživanja, novi gradijent ( E/ w) je približno ortogonalan smjeru prethodnog linijskog pretraživanja Ako odredimo novi gradijent uvijek ćemo se kretati u ortogonalnim smjerovima. Stoga odredimo novi smjer tako da gradijent paralelan sa starim smjerom bude 0! To praktično znači da trenutni negativni gradijent treba kombinirati sa dosadašnjim smjerom s(t): s t + 1 = w E t + 1 + β t s t što za sobom povlači w E t s t = 0 Različite varijante određivanja β t i varijante CG metode: Fletcher-Reeves, Polak-Ribiere, Hestenes-Stiefel 45

Struktura Optimizacija modela BFGS Metoda Kvazi-Newtonova metoda Iterativno aproksimiranje H s t = g t + A t w t + B(t) g t gdje su: g t = w E t ; g t = g t g(t 1) w t = w t w t 1 A t = 1 1 + g t T g t w t T g t B(t) = w t T g t w t T g t w t T g t w t T g t + g t T g t w t T g t Svakih N koraka, pretraživanje se restarta u smjeru negativnog gradijenta 46

Struktura Optimizacija modela Što kada imamo ograničenja u funkciji greške (SVM)? Što znači ograničenje? Npr. parametri koje optimiramo očekujemo da budu u nekom intervalu To se može geom. predstaviti da leže unutar ili na nekoj d-dimenzionalnoj plohi U tom slučaju da bi optimirali E(w) želimo ići po gradijentu koji istovremeno leži na toj plohi. To zapravo znači da gradijent mora biti okomit na normalu površine ograničenja gradijent - E(w) - komponenta E(w) paralelna gradijentu plohe ograničenja w 2 E(w) c(w)=0 c(w) E(w) E w 47 w 1

Struktura Optimizacija modela Što kada imamo ograničenja u funkciji greške (SVM)? U (ograničenom) optimumu - E w je paralelan gradijentu plohe ograničenja c w E w w c w = λ w Kontanta λ se naziva Lagrangeov multiplikator. Funkcija koja se optimira u slučaju kada minimiziramo funkciju greške uz ograničenja naziva se Lagrangeovom funkcijom Svojstvo LF je da kada je njen gradijent jednak 0, ograničenja su zadovoljena, a isto vrijedi i za E(w): L w, λ = E w + λ T c w L w, λ w E w = w c w + λt w L w, λ λ = c(w) 48

Struktura Optimizacija modela Što kada imamo velike količine podataka? Sve ove metode pretpostavljaju izračunavanje gradijenta na cijelomskupu podataka.izračunavanje gradijenta postaje vrlo skupo! Možemo li aproksimirati gradijent na jeftiniji način a da zadržimo ugrubo smjer kretanja algoritma? Mini-batch pristup Podijelimo skup podataka u manje, mini-skupove (mini-batch), te računamo gradijent za takav manji skup, pa u slijedećoj iteraciji koristimo drugi skup, u slijedećoj iteraciji treći Online pristup Ako mini-skup postane jedan primjer online learning Drugo ime za tu metodu jest Stohastičko Gradjentno Spuštanje (Stochastic Gradient Descent - SGD) Ove metode su vrlo brze u usporedbi sa metodama u kojima se gradijent računa egzaktno no potrebno je dodatno kontrolirati konvergenciju. 49

Struktura Optimizacija modela Literatura: Reprezentacija modela, struktura algoritama: Lecture notes 1,2,4,5; CS 229 Machine learning, Andrew Ng, Stanford Machine learning class @ Coursera, Andrew Ng, Stanford Lecture 1: Basic concepts in machine learning, Machine learning class @ Coursera, Pedro Domingos, Washington University Optimizacijske metode: Wikipedia S. Boyd, lecture notes, Convex Optimization II 50