SVM = Support Vector Machine = Metoda podpornih vektorjev

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "SVM = Support Vector Machine = Metoda podpornih vektorjev"

Transcription

1

2 Uvod 2/60 SVM = Support Vector Machine = Metoda podpornih vektorjev Vapnik in Lerner 1963 (generalized portrait) jedra: Aronszajn 1950; Aizerman 1964; Wahba 1990, Poggio in Girosi 1990 Boser, Guyon in Vapnik na COLT 1992 (osnovna oblika SVM, jedra) Cortes in Vapnik, Machine Learning 1995 (soft margin) poplava člankov po dobro deluje v praksi + fleksibilna (različna jedra različni prostori hipotez) + robustna (kolikor toliko odporna na pretirano prilagajanje; ne moti je veliko število atributov) + dobro teoretično podprta malo teˇzje jo je razumeti; kompleksnejša implementacija modeli niso preveč razumljivi časovno zahtevnejša

3 Kazalo 3/60 Uvod. Razmejevanje dveh razredov z ravnino. Geometrija ravnine. SVM kot optimizacijski problem. Orodja iz teorije optimizacije. Izpeljava dualnega problema. Druge formulacije prvotnega optimizacijskega problema. Reševanje v praksi. Jedra. Razno. Programi. Literatura.

4 Razmejevanje točk z ravnino Učenje kot optimizacijski problem Optimizacijske metode Prehod na dualni problem Numerično reševanje Uvod

5 Motivacija 5/60 Imamo populacijo primerkov, ki so predstavljeni z vektorji iz R d. Imamo dva razreda, pozitivnega in negativnega. Vsak primerek spada v enega od teh dveh razredov. Učna množica: pari (x i, y i ) za i 1..l. x i R d je vektor, y i {1, 1} je njegova oznaka razreda. Radi bi dobili klasifikator (model, hipotezo), ki bi razločeval ta dva razreda. Za začetek se omejimo na to, da bi oba razreda razmejili z neko (hiper)ravnino.

6 Enačba ravnine 6/60 Ravnino prepoznamo po tem, da je cela pravokotna na neko smer. Vektor w, pravokoten na ravnino, imenujemo normala ravnine. Potem je vsak vektor, ki leži v celoti znotraj ravnine, pravokoten na w. Naj bo x 0 poljubna točka z ravnine. Potem za vsako točko x z ravnine velja: x x 0 w Dva vektorja, x in û, sta pravokotna natanko tedaj, ko je njun skalarni produkt enak 0. d (x, u) = x, u = x u = x T u = x i u i. Torej i=1 w T (x x 0 ) = 0 w T x w T x 0 = 0 w T x + b = 0 (za b = w T x 0 ) d w i x i + b = 0 i=1

7 Nad in pod ravnino 7/60 Začnimo v ravnini, v neki točki x, in se premaknimo v smeri w. Za naš novi poloˇzaj ˆx = x + λw velja: w T ˆx + b = w T (x + λw) + b = w T x + b + λw T w = λw T w > 0. Če bi se premikali v nasprotni smeri, bi za novi poloˇzaj veljalo w T ˆx + b < 0. Ravnina torej razdeli prostor na dva polprostora in za poljubno točko je zelo preprosto ugotoviti, v katerem leˇzi. Za naš problem bi bilo torej ugodno, če bi ravnino postavili tako, da bi pozitivni primerki ležali na eni strani ravnine, negativni pa na drugi. Potem bi vzeli preprosto: napoved(x) = sgn(w T x + b).

8 Razmejevanje učnih primerkov z ravnino 8/60 Pozitivni primerki naj ležijo na pozitivni strani, negativni pa na negativni: y i = +1 = w T x i + b 0 y i = 1 = w T x i + b 0, kar lahko združimo v: Toda: za vsak i : y i (w T x i + b) 0. Tej zahtevi mogoče ustreza veliko ravnin. Tej zahtevi mogoče ne ustreza nobena ravnina. Za katero ravnino naj se odločimo?

9 Rob 9/60 Ko računamo w T x + b za razne x, se pri vsaki točki pozna le to, kako daleč je od razmejitvene ravnine (in na kateri strani je). Torej si ne ˇzelimo, da bi bili učni primerki preblizu razmejitvene ravnine, ker postanemo potem bolj občutljivi na majhne spremembe in premike. Prostor med ravnini najbliˇzjima primerkoma na eni in na drugi strani imenujemo rob (margin) in si ˇzelimo, da bi bil čim širši.

10 Rob 10/60 Naj bo rob omejen z ravninama: w T x + b = γ in w T x + b = γ. Učni primerki nam torej postavljajo takšne pogoje: Kako širok je ta rob? y i (w T x + b) γ Postavimo se v neko točko x 1 na prvi ravnini: w T x 1 + b = γ Premikajmo se v smeri normale, dokler ne naletimo na drugo ravnino: Torej je w T x 2 + b = γ za x 2 = x 1 + λw. w T (x 2 x 1 ) = 2γ λw T w = 2γ λ = 2γ/ w 2 Širina roba je λw = λ w = 2γ w 2 w = 2γ/ w.

11 Širina roba 11/60 Vidimo: rob je pri dani γ tem širši, čim krajša je normala w. Parameter γ je odveč: Če ravnina w T x + b = 0 ustreza pogojem i : y i (w T x i + b) γ, lahko isto ravnino opišemo kot ŵ T x + ˆb za ŵ = γ 1 w, ˆb = b/γ in bo ustrezala pogojem: Torej ni nič narobe, če vzamemo γ = 1. i : y i (ŵ T x i + ˆb) 1. Rob je potem širok 2/ w in če hočemo najširši rob, moramo zahtevati najkrajšo normalo w.

12 Optimizacijski problem 12/60 Zdaj lahko zastavimo iskanje ravnine kot optimizacijski problem: Faktor 1 2 minimiziraj 1 2 w 2 pri pogojih i 1..l : y i (w T x i + b) 1 je tu le zaradi lepšega nadaljevanja izpeljave. Kaj pa, če pozitivnih in negativnih primerkov ne moremo razmejiti z ravnino? Vpeljimo kazenske spremenljivke ξ i in pogoj omilimo v y i (w T x i + b) 1 y i (w T x i + b) 1 ξ i za neko ξ i 0. Če gre s ξ i = 0, toliko lepše, drugače pa jo upoštevajmo v kriterijski funkciji: 1 minimiziraj 2 w 2 + C l i=1 ξ i pri pogojih i 1..l : y i (w T x i + b) 1 ξ i, ξ i 0 Zdaj potrebujemo kakšna matematična orodja, da se bomo lahko lotili tega problema.

13 Razmejevanje točk z ravnino Učenje kot optimizacijski problem Prehod na dualni problem Numerično reševanje Optimizacijske metode Pripomočki za optimizacijo

14 Lagrangeovi multiplikatorji 14/60 Recimo, da imamo takšen optimizacijski problem: minimiziraj f(x) (f imenujemo kriterijska funkcija) pri pogojih x R d, i 1..l : f i (x) 0 Če x ustreza vsem pogojem f i (x) 0, pravimo, da je dopustna rešitev. Mnoˇzico vseh dopustnih rešitev označimo s Φ. Nasvet: vpeljimo Lagrangeove multiplikatorje u = (u 1,..., u l ) (ki bodo vedno nenegativna realna števila) in definirajmo Lagrangeovo funkcijo L(x, u) := f(x) l i=1 u if i (x). Izpeljimo iz nje dve novi funkciji: ˆf(x) := max L(x, u) in g(u) := min L(x, u). u (R + 0 )l x Rd Hitro se vidi: In x, u: Torej tudi: ˆf(x) = { f(x), če x Φ +, če x Φ g(u) = min L( x, u) L(x, u) max L(x, ũ) = f(x). x R d ũ (R + 0 )l max u (R + 0 )l g(u) min x R d ˆf(x).

15 Sedla 15/60 L(x, u) ima v točki (x s, u s ) sedlo natanko tedaj, ko velja: x : L(x, u s ) L(x s, u s ) in u : L(x s, u) L(x s, u s ). V (x s, u s ) ima torej L minimum po x in maksimum po u. Zato je ˆf(x s ) = L(x s, u s ) = g(u s ). Na prejšnji strani smo videli, da je x, u : ˆf(x) g(u), torej tudi za u = u s : x : ˆf(x) g(u s ) = ˆf(x s ). Zato doseže ˆf(x) v x = x s svoj minimum. Podobno mora pri x = x s veljati u : g(u) ˆf(x s ) = g(u s ), zato doseˇze g v u = u s svoj maksimum. Tedaj je torej ˆf(x s ) = min x ˆf(x) = maxu g(u) = g(u s ). Slaterjev zadostni pogoj za obstoj sedla: f in f i morajo biti vse konveksne in obstajati mora x, za katerega je i : f i (x) > 0 (strogo dopustna rešitev).

16 Karush-Kuhn-Tuckerjev izrek 16/60 V sedlu (x s, u s ) doseˇze L svoj minimum po x R d. Torej morajo biti tu njeni odvodi po x enaki 0: L x j (x s, u s ) = 0 oz. x L(x s, u s ) = 0. Obenem pa v sedlu gotovo velja: ˆf(x s ) = L(x s, u s ) = f(x s ) + l i=1 us i f i(x s ); in ˆf(x s ) = f(x s ), ker je x s dopustna rešitev; torej je l i=1 us i f i(x s ) = 0. Toda ker so Lagrangeovi multiplikatorji nenegativni, je u s i 0; in ker je x s dopustna rešitev, je f i (x s ) 0; zato je zgornji pogoj izpolnjen le, če je i 1..l : u s i f i (x s ) = 0. Z besedami: ali v pogoju velja enakost ali pa je ustrezni Lagrangeov multiplikator enak 0. Če naloga ustreza Slaterjevim pogojem, velja izrek tudi v obratno smer: če za nek (x s, u s ) velja x L(x s, u s ) = 0 in u s i f i(x s ) = 0 in u s i 0, je tu sedlo in optimum.

17 Razmejevanje točk z ravnino Učenje kot optimizacijski problem Prehod na dualni problem Numerično reševanje Optimizacijske metode Rešitev optimizacijskega problema in druge formulacije

18 Optimizacija 18/60 Naš optimizacijski problem: minimiziraj f(w, b, ξ) := 1 2 w 2 + C l i=1 ξ i pri pogojih i 1..l : y i (w T x i + b) 1 ξ i, ξ i 0 Vpeljimo Lagrangeove multiplikatorje α = (α 1,..., α l ) in µ = (µ 1,..., µ l ). d l l l L(w, }{{ b, ξ }, α, }{{} µ ) = 1 2 wj 2 + C ξ i α i [y i (w T x i + b) 1 + ξ i ] µ i ξ i. x u j=1 i=1 i=1 i=1 Iščemo pa g(α, µ) = min w,b,ξ L(w, b, ξ), zato poglejmo, kje so odvodi L-ja po w j -jih, b-ju in x i -jih enaki 0. L/ w j = w j l i=1 α iy i x ij = 0 w = l i=1 α iy i x i, L/ b = l i=1 α iy i = 0 l i=1 α iy i = 0, L/ ξ i = C α i µ i = 0 α i + µ i = C. Upoštevajmo te pogoje v L.

19 Prehod k dualni nalogi 19/60 Upoštevajmo: w = l i=1 α iy i x i, l i=1 α iy i = 0, α i + µ i = C. 1 2 L(w, b, ξ, α, µ) = 1 2 wt w + C l i=1 ξ i l i=1 α i[y i (w T x i b) 1 + ξ i ] l i=1 µ iξ i = l l l l l l α i α j y i y j x T j x i + C ξ i α i [y i ( α j y j x T j x i b) 1 + ξ i ] µ i ξ i = 1 2 l i=1 i=1 j=1 l α i α j y i y j x T j x i j=1 1 2 l i=1 l i=1 i=1 i=1 l α i α j y i y j x T j x i + i=1 l α i α j y i y j x T j x i b j=1 j=1 l α i y i + i=1 l α i y i b + i=1 l α i + i=1 1 2 l α i + i=1 i=1 l (C α i µ i )ξ i = i=1 l (C α i µ i )ξ i = i=1 l i=1 l α i α j y i y j x T j x i + Dobili smo dualno nalogo: maksimiziraj 1 l l 2 i=1 j=1 α iα j y i y j x T j x i + l i=1 α i pri pogojih i 1..l : 0 α i C in l i=1 α iy i = 0. j=1 l α i. i=1

20 Dualna naloga 20/60 Če obrnemo predznak kriterijski funkciji: minimiziraj g(α) := 1 l l 2 i=1 j=1 α iα j y i y j x T i x j l pri pogojih i 1..l : 0 α i C in l i=1 α iy i = 0. To je problem kvadratnega programiranja. Kriterijsko funkcijo lahko zapišemo tudi v matrični obliki: g(α) = 1 2 αt Qα 1 T α, kjer je Q matrika z elementi Q ij = y i y j x T i x j, 1 = (1, 1,..., 1) T pa vektor samih enic. i=1 α i Ko poiščemo optimalno α, lahko izrazimo normalo na ravnino po formuli w = l α i y i x i. Kako pridemo do praga b, bomo videli kasneje. Lahko bi izrazili tudi ξ (ko bi imeli b), a tega za klasifikacijo niti ne potrebujemo. i=1

21 Podporni vektorji 21/60 KKT izrek nam o optimalni rešitvi zagotavlja, za vsak i 1..l: α i [y i (w T x i + b) 1 + ξ i ] = 0 in µ i ξ i = 0. Spomnimo se, da velja še: α i + µ i = C, α i 0, µ i 0, y i (w T x i + b) 1 + ξ i 0. Ločimo tri možnosti: 1. α i = 0. Tedaj je µ i = C 0 in zato ξ i = 0, zato pa y i (w T x i + b) 1. To so vektorji na pravi strani roba < α i < C. Tedaj je µ i = C α i > 0 in zato spet ξ i = 0, vendar pa zdaj y i (w T x i + b) = 1. Ti vektorji so na pravi strani roba, vendar ravno še na meji. 3. α i = C. Tedaj je µ i = 0 in y i (x T x i + b) 1 ξ i. Zdaj je mogoče, da je ξ i > 0; če je ξ i 1, je tak vektor narobe klasificiran. V izraˇzavi w = l i=1 α iy i x i nastopajo le vektorji iz druge in tretje skupine, ki jim zato pravimo podporni vektorji. Izkaˇze se: če bi iz učne mnoˇzice zavrgli vse ostale vektorje in se ponovno učili, bi dobili isto rešitev. Ti vektorji so nekako najbliˇzje razmejitveni ravnini, z obeh strani jo podpirajo, da se ne bi kam premaknila.

22 Določanje praga b 22/60 w T x + b = 1 w T x + b = 0 w T x + b = 1 1. Načeloma za poljuben vektor iz 2. skupine velja y i (w T x i + b) = 1, torej b = y i w T x i ; bolje je vzeti povprečje po vseh teh vektorjih. 2. Ali pa: b = 1 [ ] min 2 i:α i <C,y i =+1 wt x i + max i:α i <C,y i = 1 wt x i. 3. Lahko si pomagamo s fitanjem sigmoide. 4. Z validacijsko mnoˇzico [CRS02] so opazili, da je lahko to veliko bolje.

23 Trdi rob (hard margin) 23/60 Pri tej različici ne dovolimo napak na učni množici. Prvotna naloga: Dualna naloga: minimiziraj f(w, b) = 1 2 w 2 pri pogojih i 1..l : y i (w T x i + b) 1 minimiziraj g(α) = 1 2 αt Qα 1 T α pri pogojih i 1..l : α i 0 in l i=1 α iy i = 0. Tu se lahko zgodi, da prvotna naloga sploh nima dopustnih rešitev. Pri dualni nalogi, kjer α i zdaj navzgor niso omejene (kot prej s C), gre lahko v takem primeru g prek vseh meja.

24 Ničeln prag 24/60 Pri tej različici fiksiramo prag na b = 0, torej se omejimo na ravnine, ki gredo skozi koordinatno izhodišče. minimiziraj f(w, ξ) = 1 2 w 2 + C l i=1 ξ i pri pogojih i 1..l : y i w T x i 1 ξ i, ξ i 0 S tem odpade iz dualne naloge pogoj α T y = 0. minimiziraj g(α) = 1 2 αt Qα 1 T α pri pogojih i 1..l : 0 α i C. V zameno učnim vektorjem pogosto dodamo še eno komponento, ki je pri vseh enaka 1: ˆx i = (x i, 1). Zato ima tudi w še eno komponento, ki torej učinkuje podobno kot prag: ŵ = (w, b). Učinek je torej tak, kot če bi imeli: minimiziraj f(w, b, ξ) = 1 2 ( w 2 + b 2 ) + C l i=1 ξ i pri pogojih i 1..l : y i (w T x i + b) 1, ξ i 0

25 Kvadratna kazen 25/60 Tu vzamemo vsoto kvadratov kazenskih spremenljivk: minimiziraj f(w, b, ξ) = 1 2 w 2 + C l i=1 ξ2 i pri pogojih i 1..l : y i (w T x i + b) 1 ξ i Omejitve ξ i 0 ne potrebujemo tako ali tako se ne bi splačalo vzeti negativnega ξ i, kajti namesto njega je ξ i = 0 tudi dober, pa še f bo manjši. V dualni nalogi se spremeni matrika drugih odvodov. Po diagonali dobi še vrednosti 1/2C, kar je numerikom v veliko veselje, ker je tako bolje pogojena: minimiziraj g(α) = 1 2 αt (Q + 1 2C I)α 1T α pri pogojih i 1..l : α i 0 in l i=1 α iy i = 0. Tu ni več pogoja α i C ali česa podobnega, vendar se vseeno ni bati, da bi kakšna α i ušla v neskončnost, saj imamo v kriterijski funkciji zdaj člen 1 4C α2 i. To radi kombinirajo z ničelnim pragom, da se znebijo nadležnega pogoja z enakostjo.

26 Izbira parametra C 26/60 minimiziraj f(w, b, ξ) := 1 2 w 2 + C l i=1 ξ i pri pogojih i 1..l : y i (w T x i + b) 1 ξ i, ξ i 0 C mora posredovati med teˇznjami k širšemu robu (spomnimo se, da je rob širok 2/ w ) in težnjami po čim manjših napakah (ξ i ) na učni množici. Ker je v pogojih 1 fiksna, se tudi ξ i gibljejo tam nekje: ξ i = 2 vedno pomeni napako za celotno širino roba, ipd. Za w 2 pa ni tovrstnih omejitev. Če se vsi x i pomnoˇzijo z λ, mi pa bi ˇzeleli isto ravnino kot prej, bo ŵ = (1/λ)w ustrezala pogojem z istimi ξ i in b. Toda v kriterijski funkciji je zdaj prvi člen λ 2 -krat manjši, torej bi čutili napake veliko huje. Zato bi morali vzeti Ĉ = C/λ2. Do istega problema pride pri jedrih, kjer učne vektorje tudi nekako preslikamo.

27 Izbira parametra C 27/60 Teorija: Recimo, da vsi naši vektorji, učni in kasneje testni, ležijo v krogli s središčem v koordinatnem izhodišču in polmerom R. Za neko konstanto k velja: Naj bo f poljuben klasifikator oblike napoved(x) = sgn w T x; naj bodo ξ i njegove napake na učni mnoˇzici, tako da je y i (w T x) 1 ξ i ; potem z verjetnostjo vsaj 1 δ velja: verjetnost napake(f) k l ( ( w 2 R 2 + ξ 2 ) log 2 l log δ ). Edino, na kar lahko vplivamo, je w 2 R 2 + ξ 2, kar je isto kot R 2 ( w 2 + R 2 ξ 2 ). Mi pri učenju minimiziramo w 2 + C ξ 2 ; desna stran bo torej najmanjša pri C = R 2. Ta nasvet sicer predpostavlja ničeln prag b in kvadratno kazen pri optimizaciji, vendar je tudi pri linearni lahko koristen. V praksi: prečno preverjanje.

28 Izbira parametra C 28/60 Reuters-21578, ModApte, ship 1 20 F F 1 na učni množici F 1 na testni množici čas učenja [s] čas učenja [s] C Zelo neugodno je, če vzamemo premajhen C. Če vzamemo prevelik C, nam to ne škoduje tako zelo, pač pa učenje po nepotrebnem traja dlje.

29 Razmejevanje točk z ravnino Učenje kot optimizacijski problem Prehod na dualni problem Numerično reševanje Optimizacijske metode Numerično reševanje

30 Kvadratno programiranje 30/60 Numerično moramo rešiti nalogo minimiziraj g(α) = 1 2 αt Qα 1 T α pri pogojih i 1..l : α i 0, i y iα i = 0. Matematiki že dolgo poznajo razne postopke za to, vendar večinoma odpovejo pri velikih problemih. Pri nas je l število učnih primerkov in Q je matrika reda l l, tako da pogosto niti ne gre cela hkrati v pomnilnik. Vendar pa, če nekaj spremenljivk fiksiramo, nam ostane problem enake oblike na manj spremenljivkah. Zato lahko standardne postopke uporabimo tako, da fiksiramo večino spremenljivk in optimiziramo le po preostalih (delovna množica). Potem optimiziramo po neki drugi skupini spremenljivk in tako naprej. S KKT pogoji lahko kadarkoli preverimo, če smo ˇze pri optimalni rešitvi. Za vsak i mora veljati: α i = 0 = y i (w T x i + b) 1 0 < α i < C = y i (w T x i + b) = 1 α i = C = y i (w T x i + b) 1

31 Chunking 31/60 To je predlagal že Vapnik (1979): 1. Izberimo prvih nekaj spremenljivk kot delovno mnoˇzico in optimizirajmo po njih. 2. Ko to naredimo, odstranimo iz delovne mnoˇzice tiste z α i = 0 in dodajmo vanjo tiste, ki prej niso bile v DM, se pa trenutna ravnina na njih zmoti (imajo y i (w T x i + b) < 1). 3. Spet optimiziramo na novi DM in to ponavljamo. Tu se zanašamo na dejstvo, da se rezultat ne spremeni, če iz učne množice zavržemo vse ne-podporne vektorje. Torej je dovolj, če se učimo samo na podpornih; z gornjim postopkom skušamo ugotoviti, kateri so podporni. Različica: decomposition (Osuna et al., 1997) v delovno množico vedno sprejmemo le toliko novih spremenljivk, kolikor smo jih prej odvzeli iz nje. Očitno moramo dovoliti vsaj tako veliko DM, da bodo šli vanjo vsi podporni vektorji.

32 Joachimsova različica dekompozicije 32/60 Za delovno množico si izberemo q spremenljivk; optimiziramo; to ponavljamo, dokler ne konvergira. Predlaga q = 10. Spremenljivke si izberemo takole: kriterijska funkcija ima odvode g(α) = 1 2 αt Qα 1 T α α g(α) = Qα 1 T. Spremenljivke α i z negativnim odvodom g/ α i bi bilo treba povečevati, tiste s pozitivnim zmanjševati. Da bomo lahko spoštovali pogoj l i=1 y iα i = 0, si moramo izbrati nekaj (npr. q/2) takih α i, pri katerih se bo vrednost y i α i povečevala, in nekaj takih, pri katerih se bo zmanjševala. Pri tem seveda ignoriramo tiste, ki jih ne bi mogli premikati v željeni smeri (če so ˇze na robu intervala [0, C]). Shrinking: če neka α i veliko iteracij ostaja pri vrednosti 0 (ali C), je v bodoče sploh ne gledamo več. Čez čas preverimo, če je njena vrednost še sprejemljiva.

33 Zaporedna minimalna optimizacija (SMO) 33/60 Platt (1999) je opazil: Ker imamo pogoj l y i α i = 0, i=1 ne moremo spreminjati le po ene α i moramo vsaj dve naenkrat, da bomo lahko ohranjali to enakost. Izberimo le dve, α i in α j. Od gornjega pogoja nam ostane zdaj y i α stara i + y j α stara j = y i α nova i + y j α nova j. Torej: ko spremenimo npr. α i v αi nova, je s tem ˇze točno določena tudi edina sprejemljiva vrednost za α j. Torej imamo v bistvu en sam parameter spremembo α i. g je kvadratna funkcija tega in brez težav poiščemo minimum. Hevristika za izbor dveh spremenljivk: 1. α i naj bo tista, ki najhuje krši svoj KKT pogoj. 2. α j tista, ki v paru z α i obeta največji premik.

34 Časovna zahtevnost učenja SVMjev 34/ Čas učenja T [s] Število učnih primerkov N poskusi T = N 1.51 / Mnoˇzica učnih primerkov in njene podmnoˇzice. Linearna regresija pravi: [čas učenja] [število učnih primerkov] s. Časovna zahtevnost je med linearno in kvadratno, različni avtorji navajajo različne eksponente.

35 Nelinearni modeli in jedra

36 Prehod na nelinearne modele 36/60 Recimo, da bi pred učenjem vse učne vektorje preslikali v nek nov vektorski prostor F: φ : R d F x φ(x) Če pišemo φ(x) = (φ 1 (x), φ 2 (x),...), so φ i (x) oblike ali značilke ( features) primerka x, F je prostor značilk ( feature space). Naš optimizacijski problem je bil prej Zdaj pa je: minimiziraj f(w, b, ξ) := 1 2 w 2 + C l i=1 ξ i pri pogojih i 1..l : y i (w T x i + b) 1 ξ i, ξ i 0. minimiziraj f(ŵ, b, ξ) := 1 2 ŵ 2 F + C l i=1 ξ i pri pogojih i 1..l : y i ( ŵ, φ(x i ) F + b) 1 ξ i, ξ i 0. ŵ ˇzivi v F in, F je skalarni produkt v F. ŵ 2 F = ŵ, ŵ F je norma v prostoru F.

37 Prehod na nelinearne modele 37/60 Dualna naloga je bila prej: minimiziraj g(α) := 1 l l 2 i=1 j=1 α iα j y i y j x T i x j l pri pogojih i 1..l : 0 α i C in l i=1 α iy i = 0. i=1 α i Zdaj pa je: minimiziraj g(α) := 1 l l 2 i=1 j=1 α iα j y i y j φ(x i ), φ(x j ) F l pri pogojih i 1..l : 0 α i C in l i=1 α iy i = 0. Prej se je normala izraˇzala kot Zdaj: Klasifikator je bil prej: Zdaj: w = l i=1 α iy i x i. ŵ = l i=1 α iy i φ(x i ). napoved(x) = sgn(w T x + b). i=1 α i napoved(x) = sgn( ŵ, φ(x) F + b) = sgn(b + l i=1 α iy i φ(x i ), φ(x) F ).

38 Jedra 38/60 Videli smo: nikjer nam ni treba eksplicitno delati s slikami φ(x). Dovolj je, če znamo računati skalarne produkte med njimi: Taki funkciji pravimo jedro (kernel). K(x, ˆx) = φ(x), φ(ˆx) F. Lahko bi si najprej izbrali φ in F ter potem poskušali najti primerno K. (Takšno, ki jo bo preprosto računati.) Pogosto pa kar vzamemo nek K in se moramo le še prepričati, da obstajata neka φ in F, ki jima K ustreza.

39 Zadostni pogoji, da je K jedro 39/60 Mercerjev izrek: Omejimo se na neko kompaktno (zaprto in omejeno) podmnoˇzico C R d. g je kvadratno integrabilna na C ntk. C g 2 (x)dx <. K naj bo simetrična in za vsaki kvadratno integrabilni f, g naj velja: f(x)k(x, ˆx)g(ˆx)dxdˆx 0. Potem je K jedro. Še en zadosten pogoj: C C Za vsako končno mnoˇzico {x 1,..., x l } mora biti matrika K = (k ij ) z elementi k ij := K(x i, x j ) pozitivno semidefinitna.

40 Bolj človeški pogoji 40/60 Če so K 1, K 2, K 3 jedra, so tudi tole jedra: K(x, ˆx) = K 1 (x, ˆx) + K 2 (x, ˆx) K(x, ˆx) = λk 1 (x, ˆx) za poljubno λ R K(x, ˆx) = K 1 (x, ˆx)K 2 (x, ˆx) K(x, ˆx) = f(x)f(ˆx) za poljubno f : R d R K(x, ˆx) = K 3 (φ(x), φ(ˆx)) za poljubno φ : R d R m K(x, ˆx) = x T Aˆx za poljubno pozitivno semidefinitno A

41 Polinomska jedra 41/60 K(x, ˆx) = (x T ˆx + 1) p Na primer: recimo, da naši učni vektorji ˇzivijo v 2-d prostoru: x = (x 1, x 2 ), ˆx = (ˆx 1, ˆx 2 ). Potem je za p = 2: K(x, ˆx) = (x 1ˆx 1 + x 2ˆx 2 + 1) 2 = = x 2 1ˆx x 2 2ˆx x 1 x 2ˆx 1ˆx 2 + 2x 1ˆx 1 + 2x 2ˆx = = (x 2 1, x 2 2, 2x 1 x 2, 2x 1, 2x 2, 1)(ˆx 2 1, ˆx 2 2, 2ˆx 1ˆx 2, 2ˆx 1, 2ˆx 2, 1) T. Torej deluje K(x, ˆx) tako, kot da bi oba vektorja preslikali s preslikavo φ : R 2 R 6, φ(x) = (x 2 1, x 2 2, 2x 1 x 2, 2x 1, 2x 2, 1) T in potem v R 6 naredili navaden skalarni produkt. Ko se naučimo neko normalo ŵ = (A, B, C, D, E, F ) T R 6, dobimo klasifikator napoved(x) = sgn(ŵ T φ(x) + b) = sgn(ax Bx Cx 1 x 2 + Dx 1 + Ex 2 + F + b). Torej smo 2-d ravnino, v kateri ležijo naši x, razmejili z neko stožernico. V splošnem je tako, kot da bi φ slikala v nek ( ) p+d p -razseˇzni prostor.

42 Radialna jedra (radialne bazne funkcije) 42/60 ] x ˆx 2 K(x, ˆx) = exp [ ali exp [ γ x ˆx 2] 2σ 2 To ustreza preslikavi φ v nek -razseˇzen prostor F. Klasifikator: napoved(x) = sgn ( b + si lahko predstavljamo takole: ) l α i y i K(x i, x) i= f(t) = exp( 3t 2 ) Vsak učni primerek x i glasuje za svoj razred y i. Na koncu vzamemo uteˇzeno vsoto teh glasov in jo primerjamo s pragom b. Pri glasovanju damo večjo težo tistim učnim primerkom x i, ki so bliˇze novemu vektorju x. Utež primerka x i je K(x i, x), torej Gaussova (zvonasta) funkcija razdalje x i x. Večja ko je γ, oˇzji so zvonovi in manjši je vpliv posameznega primerka.

43 Sigmoidna jedra 43/60 K(x, ˆx) = th(κx T ˆx + Θ) Sploh niso jedra: na primer, K(x, x) bi moral biti > 0, pa ni, če je κ > 0, Θ < 0 in x < Θ/κ Sigmoidna krivulja: th t = et e t e t + e = t e 2t Θ določa, kje bo prehod: f(t) = th(κt + Θ) ima ničlo pri t = Θ/κ κ določa, kako strm bo prehod: f ima v ničli odvod κ

44 Jedra za nize 44/60 Naj bo x = a 1 a 2... a n niz n znakov nad abecedo Σ. Niz u = b 1 b 2... b m se pojavlja kot podniz v x, če i 1,..., i m : 1 i 1 < i 2 < < i m n, a i1 = b 1,..., a im = b m. Dajmo tej pojavitvi vrednost λ (i m i 1 +1) m (za neko λ [0, 1]). Definirajmo φ u (x) = vrednost te pojavitve. In: Potem lahko definiramo jedro: po vseh pojavitvah u v x φ : Σ R Σm, φ(x) := φ u (x) u Σ m. K(x, ˆx) = u Σ m φ u (x)φ u (ˆx) Računamo ga lahko z dinamičnim programiranjem v O(m x ˆx ). Menda se je na besedilih obneslo tako dobro kot tradicionalna jedra, včasih še malo bolje (Lodhi et al., 2000).

45 Posplošena jedra 45/60 Pri jedrih dobimo klasifikator oblike in pri učenju minimiziramo 1 2 l i=1 l j=1 α iα j y i y j K(x i, x j ) + C l i=1 ξ i napoved(x) := sgn(b + l j=1 α jy j K(x, x j )) pri i 1..l : y i (b + l j=1 α jk(x i, x j )) 1 ξ i, ξ i 0. Od tod izvira pogoj, da K ne more biti kakršna koli funkcija biti mora jedro, torej pozitivno definitna, sicer so lahko pri optimizaciji težave. Mangasarian je predlagal drugačen optimizacijski problem (generalized SVM): minimiziraj 1 2 l i=1 l j=1 α ih ij α j + C i ξ i pri pogojih i 1..l : y i (b + l j=1 α jk(x i, x j )) 1 ξ i, ξ i 0. Ta problem je dovolj lep, čim je H = (H ij ) pozitivno definitna ne glede na to, kakšna funkcija je K. Klasifikator je tak kot zgoraj.

46 Posplošena jedra 46/60 Najpreprostejša različica: H = I, minimizirajmo i α2 i. Kot bi ˇzeleli čim preprostejši model (veliko α i = 0). Optimizacijski problem minimiziraj 1 2 l i=1 α2 i + C i ξ i pri pogojih i 1..l : y i (b + l j=1 α jk(x i, x j )) 1 ξ i, ξ i 0. je ekvivalenten temu, da bi x preslikali v φ(x) := (K(x, x 1 ), K(x, x 2 ),..., K(x, x l )) R l in iskali v prostoru R l ravnino oblike α T φ(x) + b: minimiziraj 1 2 α 2 + C i ξ i pri pogojih i 1..l : y i (b + α T φ(x i )) 1 ξ i, ξ i 0. Torej je ta formulacija takšna, kot da bi si rekli: primerka x in ˆx sta si podobna (imata velik φ(x), φ(ˆx) F ), če so vrednosti K(x, x i ) pribliˇzno take kot K(ˆx, x i ); torej: če imata enak vzorec podobnosti do učnih primerkov (x i, i 1..l).

47 Razno

48 SVM kot nevronska mreža 48/60 K(, x1 ) α 1 y 1 K(, x 2 ) α 2 y 2 x Σ sgn napoved(x) K(, x l ) α l y l b Na prvem nivoju je l celic; i-ta računa K(x, x i ). Na drugem nivoju je ena celica, ki izračuna uteˇzeno vsoto b + l i=1 α iy i K(x, x i ) in vrne njen predznak.

49 Transduktivni SVM 49/60 Tu imamo poleg običajne učne množice še nekaj neoznačenih vektorjev x j, j 1..m (ki pa prihajajo iz iste verjetnostne porazdelitve). Vapnik (1998) je priporočil: Pripišimo vsakemu od neoznačenih primerkov oznako (+1 ali 1) in to tako, da bo potem pri učenju na obojih skupaj mogoče doseči čim manjšo vrednost kriterijske funkcije. minimiziraj f(w, b, ξ, ξ, y ) := 1 2 w 2 + C l i=1 ξ i + C m j=1 ξ i pri pogojih i 1..l : y i (w T x i + b) 1 ξ i, ξ i 0 j 1..m : yj (wt x j + b) 1 ξ j, ξ j 0, y j {1, 1} Tega ne moremo kar minimizirati, saj so spremenljivke y j diskretne.

50 Transduktivni SVM 50/60 minimiziraj f(w, b, ξ, ξ, y ) := 1 2 w 2 + C l i=1 ξ i + C m j=1 ξ i pri pogojih i 1..l : y i (w T x i + b) 1 ξ i, ξ i 0 j 1..m : yj (wt x j + b) 1 ξ j, ξ j 0, y j {1, 1} Zato je Joachims (1999) predlagal hevristiko: 1. Najprej se naučimo le na prvotni učni mnoˇzici. Dobljena w in b uporabimo, da označimo ostale primerke: nekaj x j z najvišjimi wt x j dobi oznako +1, ostali Pripravimo nov model na vseh primerkih. Dokler gre, poskušamo zamenjati oznaki kakšnih takih x j 1 in x j 2, ki sta različno označena in se dosedanji model zmoti na obeh (torej: napove nasprotno oznako od tiste, ki smo jima jo pripisali mi). Če je ob ponovnem učenju f manjša, zamenjavo obdržimo. 3. Ko to ne gre več, vpliv neoznačenih primerkov (C ) povečamo in ponovimo prejšnjo točko. Ponavljamo, dokler ne postane C = C.

51 Vračanje verjetnosti 51/60 Lepo je, če klasifikator vrne aposteriorno verjetnost P (Y = y X = x); SVM pa vrne le vrednost f(x) = w T x + b (oz. njen predznak) Na abscisi so vrednosti f, na ordinati pa delež pozitivnih primerkov znotraj košarice širine 0,1.

52 Vračanje verjetnosti 52/60 Zato je Platt (1999) predlagal, da bi na f-je položili sigmoido: P (Y = 1 F = f) = 1, P (Y = 1 F = f) = 1 P (Y = 1 F = f). 1 + exp( Af + B) A in B izberimo tako, da se maksimizira l P (Y = y i F = w T x i + b) oziroma logaritem tega. To je verjetnost, da, če dobimo ravno take primerke, kot jih imamo mi tule (torej x i, i 1..l), imajo ti primerki tudi ravno take oznake, kot jih vidimo mi (torej y i ). Koristno je vzeti ločeno validacijsko množico, ne iste kot za učenje prediktorja f. To nam ponudi tudi malo drugačen klasifikator: { +1, če P (Y = +1 F = w napoved(x) = T x + b) 1/2 1, sicer. Učinek je tak, kot če bi spremenili prag: To včasih izboljša točnost. i=1 napoved(x) = sgn(w T x + b B/A)

53 Večrazredni problemi 53/60 Imamo r razredov, vsak primerek spada v natanko enega od njih. Moramo ga preoblikovati v več dvorazrednih problemov. Eden proti ostalim: naučimo r modelov, ki ločujejo po en razred od ostalih. Če jih več razglasi primerek za pozitivnega, vzamemo tistega z največjo w T x + b (ali pa največjo P (Y = 1 f)). Eden proti enemu: za vsak par razredov naučimo model, ki ju razločuje. Nov primerek pokažemo vsem modelom in se odločimo za razred, ki dobi največ glasov. DAGSVM: različica prejšnje strategije. Če model za {c i, c j } reče, da je primerek v c i, to sicer še ne pomeni, da je res v c i, pač pa, da skoraj gotovo ni v c j. Kodne matrike: naučimo m modelov; vrednost M ij { 1, 0, 1} pove, kako uporabimo primerke razreda c i pri učenju j-tega modela. Nov primerek pokaˇzemo vsem, dobimo vrstico napovedi, ki jo primerjamo z vrsticami matrike M. Razne ideje glede matrike M: gosta, redka, maksimalna, ECC. Allwein et al. (2000) ter Hsu in Lin (2001) priporočajo pristop eden proti enemu.

54 Regresijski SVM 54/60 Radi bi napovedovali takole: y = w, x + b. To si lahko predstavljamo kot ravnino v (d + 1)-razsežnem prostoru. Učni primerki (x i, y i ) naj vsi ležijo čim bližje te ravnine. y i w, x i + b < ε Če velja to, ležijo vse (x i, y i ) znotraj pasu širine 2ε/ 1 + w 2. Torej je spet dobro minimizirati w. 1 minimiziraj 2 w 2 + C l i=1 (ξ i + ξi ) pri pogojih ( i 1..l) : y i w, x i + b + ε + ξi y i w, x i + b ε ξi ξi 0, ξi 0 ε si izberemo vnaprej za majhne napake se sploh ne zmenimo. To spet lahko predelamo v dualni problem in rešujemo s kvadratnim programiranjem.

55 ν-svm (Schölkopf et al., 1998) 55/60 Namesto parametra C uporabimo ν [0, 1]: minimiziraj f(w, b, γ, ξ) := 1 2 w 2 νγ + 1 l l i=1 ξ i pri pogojih ( i 1..l) : y i (w T x i + b) γ ξ i ξ i 0, γ 0 Širina roba je zdaj 2γ/ w. Pokazati se da: delež učnih primerkov, ki niso na pravi strani roba ν delež podpornih vektorjev ν če bi dobivali vse več učnih podatkov in če porazdelitev, iz katere prihajajo, ni preveč čudna, bi v gornjih dveh neenačbah konvergirali k enakosti. S parametrom ν nadziramo deleˇz podpornih vektorjev in napak, tako kot s C v prvotni formulaciji, le da z ν bolj neposredno.

56 ROMMA (relaxed on-line maximum margin algorithm, Li & Long, 2002) 56/60 On-line učenje: sproti, ko prihajajo novi učni primerki, ˇzelimo popravljati model. Omejimo se na b = 0 in trdi rob. SVMjev optimizacijski problem bi bil: minimiziraj 1 2 w 2 pri pogojih ( i 1..l) : y i w T x i 1 origin Iščemo torej tisto točko w iz dopustne mnoˇzice, ki je najbliˇzja koordinatnemu izhodišču. Več ko je primerkov, bolj je dopustna mnoˇzica zapletena. Naj bo w 1 najkrajša normala v dopustni mnoˇzici. Če zamenjamo vse pogoje z enim samim: w T w 1 w 1 2, je nova dopustna množica nadmnožica stare, najkrajši w v njej pa je še vedno w 1.

57 ROMMA 57/60 Postopek je torej tak: Prvi učni primerek nam da kot pogoj le eno linearno neenačbo: y 1 w T x 1 1 Za vsak naslednji učni primerek (x t, y t ): Dosedanji neenačbi w T u t 1 v t 1 se pridruˇzi še tista od trenutnega učnega primerka: y t w T x t 1. Izračunajmo najkrajši w, ki ustreza obema; recimo mu w t. Zamenjajmo obe neenačbi z eno samo: w T w t w t 2. Torej imamo u t = w t, v t = w t 2. Vpeljati je mogoče tudi neke vrste kvadratno kazen (+C i ξ2 i ). Jedru po diagonali prištejemo 1/2C: K novo (x i, x j ) := K staro (x i, x j ) + (1/2C) δ ij. Pri linearnem jedru je to enako, kot če bi vsak x i podaljšali z l komponentami, ki so same ničle, razen i-te, ki je enica. Očitno je, da je problem potem res linearno separabilen.

58 Programi 58/60 SvmLight (T. Joachims): Posebej hiter pri linearnem jedru. Podpira običajno in transduktivno formulacijo klasifikacijskega SVM, v zadnji verziji podpira tudi regresijo. LibSvm (C.-C. Chang, C.-J. Lin): Poleg običajnega SVM podpira še ν-svm, regresijo in ocenjevanje podpore porazdelitev. Podpira večrazredne probleme (strategija eden proti enemu ). MySvm (S. Rüping), itd., itd. Demo v javi:

59 Literatura 59/60 C. J. C. Burges: A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery, 2(2): , June Delavnice na NIPS (Neural Information Processing Systems): NIPS 97: B. Schölkopf, C. J. C. Burges, A. J. Smola (eds.): Advances in kernel methods: Support vector learning. MIT Press, NIPS 98: A. J. Smola, P. J. Bartlett, B. Schölkopf, D. Schuurmans: Advances in large-margin classifiers. MIT Press, NIPS 99: Machine Learning, special issue on SVMs and kernel methods, 46(1 3), January March NIPS 2000: Journal of Machine Learning Research, special issue on kernel methods, December 2001.

60 Literatura 60/60 Knjige: N. Christianini, J. Shawe-Taylor: An introduction to Support Vector Machines and other kernel-based methods. Cambridge University Press, [www.support-vector.net] B. Schölkopf, A. J. Smola: Learning with kernels. MIT Press, [www.learning-with-kernels.org] R. Herbrich: Learning kernel classifiers. MIT Press, [www.learning-kernel-classifiers.org] V. N. Vapnik: Statistical learning theory. Wiley-Interscience, V. N. Vapnik: The nature of statistical learning theory. Springer, 1995, Web site:

TOPLJENEC ASOCIIRA LE V VODNI FAZI

TOPLJENEC ASOCIIRA LE V VODNI FAZI TOPLJENEC ASOCIIRA LE V VODNI FAZI V primeru asociacij molekul topljenca v vodni ali organski fazi eksperimentalno določeni navidezni porazdelitveni koeficient (P n ) v odvisnosti od koncentracije ni konstanten.

More information

Learning with kernels and SVM

Learning with kernels and SVM Learning with kernels and SVM Šámalova chata, 23. května, 2006 Petra Kudová Outline Introduction Binary classification Learning with Kernels Support Vector Machines Demo Conclusion Learning from data find

More information

Support Vector Machines

Support Vector Machines Support Vector Machines Tobias Pohlen Selected Topics in Human Language Technology and Pattern Recognition February 10, 2014 Human Language Technology and Pattern Recognition Lehrstuhl für Informatik 6

More information

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R Multipla koelacia in egesia Multipla egesia, multipla koelacia, statistično zaklučevane o multiplem Multipla egesia osnovni model in ačunane paametov Z multiplo egesio napoveduemo vednost kiteia (odvisne

More information

Gaps in Support Vector Optimization

Gaps in Support Vector Optimization Gaps in Support Vector Optimization Nikolas List 1 (student author), Don Hush 2, Clint Scovel 2, Ingo Steinwart 2 1 Lehrstuhl Mathematik und Informatik, Ruhr-University Bochum, Germany nlist@lmi.rub.de

More information

LIBSVM: a Library for Support Vector Machines

LIBSVM: a Library for Support Vector Machines LIBSVM: a Library for Support Vector Machines Chih-Chung Chang and Chih-Jen Lin Last updated: September 6, 2006 Abstract LIBSVM is a library for support vector machines (SVM). Its goal is to help users

More information

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SAŠO ZUPANEC MAX-PLUS ALGEBRA DIPLOMSKO DELO

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SAŠO ZUPANEC MAX-PLUS ALGEBRA DIPLOMSKO DELO UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SAŠO ZUPANEC MAX-PLUS ALGEBRA DIPLOMSKO DELO Ljubljana, 2013 UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA ODDELEK ZA MATEMATIKO IN RAČUNALNIŠTVO SAŠO ZUPANEC Mentor:

More information

Ekstrakcija časovnega znanja iz dogodkov v spletnih novicah

Ekstrakcija časovnega znanja iz dogodkov v spletnih novicah Univerza v Ljubljani Fakulteta za računalništvo in informatiko Kristijan Mirčeta Ekstrakcija časovnega znanja iz dogodkov v spletnih novicah DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM PRVE STOPNJE

More information

AKSIOMATSKA KONSTRUKCIJA NARAVNIH

AKSIOMATSKA KONSTRUKCIJA NARAVNIH UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA Poučevanje: Predmetno poučevanje ŠPELA ZOBAVNIK AKSIOMATSKA KONSTRUKCIJA NARAVNIH ŠTEVIL MAGISTRSKO DELO LJUBLJANA, 2016 UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA

More information

Support Vector Machines and Kernel Algorithms

Support Vector Machines and Kernel Algorithms Support Vector Machines and Kernel Algorithms Bernhard Schölkopf Max-Planck-Institut für biologische Kybernetik 72076 Tübingen, Germany Bernhard.Schoelkopf@tuebingen.mpg.de Alex Smola RSISE, Australian

More information

Hipohamiltonovi grafi

Hipohamiltonovi grafi Hipohamiltonovi grafi Marko Čmrlec, Bor Grošelj Simić Mentor(ica): Vesna Iršič Matematično raziskovalno srečanje 1. avgust 016 1 Uvod V marsovskem klubu je želel predsednik prirediti večerjo za svoje člane.

More information

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Optimizacija 1 Course title: Optimization 1. Študijska smer Study field

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Optimizacija 1 Course title: Optimization 1. Študijska smer Study field UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Optimizacija 1 Course title: Optimization 1 Študijski program in stopnja Study programme and level Univerzitetni študijski program Matematika

More information

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE Zaključna naloga Uporaba logistične regresije za napovedovanje razreda, ko je število enot v preučevanih razredih

More information

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK POVZETEK. Namen tega dela je prikazati osnove razlik, ki lahko nastanejo pri interpretaciji

More information

MACHINE LEARNING. Support Vector Machines. Alessandro Moschitti

MACHINE LEARNING. Support Vector Machines. Alessandro Moschitti MACHINE LEARNING Support Vector Machines Alessandro Moschitti Department of information and communication technology University of Trento Email: moschitti@dit.unitn.it Summary Support Vector Machines

More information

Iskanje najcenejše poti v grafih preko polkolobarjev

Iskanje najcenejše poti v grafih preko polkolobarjev Univerza v Ljubljani Fakulteta za računalništvo in informatiko Veronika Horvat Iskanje najcenejše poti v grafih preko polkolobarjev DIPLOMSKO DELO VISOKOŠOLSKI STROKOVNI ŠTUDIJSKI PROGRAM PRVE STOPNJE

More information

Attempt to prepare seasonal weather outlook for Slovenia

Attempt to prepare seasonal weather outlook for Slovenia Attempt to prepare seasonal weather outlook for Slovenia Main available sources (ECMWF, EUROSIP, IRI, CPC.NCEP.NOAA,..) Two parameters (T and RR anomally) Textual information ( Met Office like ) Issued

More information

NIKJER-NIČELNI PRETOKI

NIKJER-NIČELNI PRETOKI UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA ALJA ŠUBIC NIKJER-NIČELNI PRETOKI DIPLOMSKO DELO LJUBLJANA, 2016 UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA Dvopredmetni učitelj: matematika - računalništvo ALJA

More information

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta Matematika 1 Gabrijel Tomšič Bojan Orel Neža Mramor Kosta 15. december 2010 Poglavje 3 Funkcije 3.1 Osnovni pojmi Preslikavam v množico R ali C običajno pravimo funkcije v prvem primeru realne, v drugem

More information

Support Vector Machines. Maximizing the Margin

Support Vector Machines. Maximizing the Margin Support Vector Machines Support vector achines (SVMs) learn a hypothesis: h(x) = b + Σ i= y i α i k(x, x i ) (x, y ),..., (x, y ) are the training exs., y i {, } b is the bias weight. α,..., α are the

More information

Perceptron Revisited: Linear Separators. Support Vector Machines

Perceptron Revisited: Linear Separators. Support Vector Machines Support Vector Machines Perceptron Revisited: Linear Separators Binary classification can be viewed as the task of separating classes in feature space: w T x + b > 0 w T x + b = 0 w T x + b < 0 Department

More information

OPTIMIRANJE IZDELOVALNIH PROCESOV

OPTIMIRANJE IZDELOVALNIH PROCESOV OPTIMIRANJE IZDELOVALNIH PROCESOV asist. Damir GRGURAŠ, mag. inž. str izr. prof. dr. Davorin KRAMAR damir.grguras@fs.uni-lj.si Namen vaje: Ugotoviti/določiti optimalne parametre pri struženju za dosego

More information

Training Support Vector Machines: Status and Challenges

Training Support Vector Machines: Status and Challenges ICML Workshop on Large Scale Learning Challenge July 9, 2008 Chih-Jen Lin (National Taiwan Univ.) 1 / 34 Training Support Vector Machines: Status and Challenges Chih-Jen Lin Department of Computer Science

More information

Modeliranje časovnih vrst z metodami teorije informacij

Modeliranje časovnih vrst z metodami teorije informacij Elektrotehniški vestnik 76(4): 240 245, 2009 Electrotechnical Review, Ljubljana, Slovenija Modeliranje časovnih vrst z metodami teorije informacij Marko Bratina 1, Andrej Dobnikar 2, Uroš Lotrič 2 1 Savatech,

More information

Uvod v odkrivanje znanj iz podatkov (zapiski predavatelja, samo za interno uporabo)

Uvod v odkrivanje znanj iz podatkov (zapiski predavatelja, samo za interno uporabo) Uvod v odkrivanje znanj iz podatkov (zapiski predavatelja, samo za interno uporabo) Blaž Zupan 29. julij 2017 Kazalo 1 Odkrivanje skupin 7 1.1 Primer podatkov.................................. 7 1.2 Nekaj

More information

Direct L2 Support Vector Machine

Direct L2 Support Vector Machine Virginia Commonwealth University VCU Scholars Compass Theses and Dissertations Graduate School 2016 Direct L2 Support Vector Machine Ljiljana Zigic zigicl@vcu.edu Follow this and additional works at: http://scholarscompass.vcu.edu/etd

More information

Iterativne metode podprostorov 2010/2011 Domače naloge

Iterativne metode podprostorov 2010/2011 Domače naloge Iterativne metode podprostorov 2010/2011 Domače naloge Naloge so razdeljene v 6 skupin. Za pozitivno oceno morate rešiti toliko nalog, da bo končna vsota za pozitivno oceno vsaj 8 točk oz. vsaj 10 točk

More information

SMO Algorithms for Support Vector Machines without Bias Term

SMO Algorithms for Support Vector Machines without Bias Term Institute of Automatic Control Laboratory for Control Systems and Process Automation Prof. Dr.-Ing. Dr. h. c. Rolf Isermann SMO Algorithms for Support Vector Machines without Bias Term Michael Vogt, 18-Jul-2002

More information

Improvements to Platt s SMO Algorithm for SVM Classifier Design

Improvements to Platt s SMO Algorithm for SVM Classifier Design LETTER Communicated by John Platt Improvements to Platt s SMO Algorithm for SVM Classifier Design S. S. Keerthi Department of Mechanical and Production Engineering, National University of Singapore, Singapore-119260

More information

FRAKTALNA DIMENZIJA. Fakulteta za matematiko in fiziko Univerza v Ljubljani

FRAKTALNA DIMENZIJA. Fakulteta za matematiko in fiziko Univerza v Ljubljani FRAKTALNA DIMENZIJA VESNA IRŠIČ Fakulteta za matematiko in fiziko Univerza v Ljubljani PACS: 07.50.Hp, 01.65.+g V članku je predstavljen zgodovinski razvoj teorije fraktalov in natančen opis primerov,

More information

Support Vector Machine (SVM) and Kernel Methods

Support Vector Machine (SVM) and Kernel Methods Support Vector Machine (SVM) and Kernel Methods CE-717: Machine Learning Sharif University of Technology Fall 2015 Soleymani Outline Margin concept Hard-Margin SVM Soft-Margin SVM Dual Problems of Hard-Margin

More information

Support Vector Machines and Kernel Methods

Support Vector Machines and Kernel Methods Support Vector Machines and Kernel Methods Chih-Jen Lin Department of Computer Science National Taiwan University Talk at International Workshop on Recent Trends in Learning, Computation, and Finance,

More information

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ekstremne porazdelitve za odvisne spremenljivke

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ekstremne porazdelitve za odvisne spremenljivke UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE Zaključna naloga Ekstremne porazdelitve za odvisne spremenljivke (Extremal Distributions for Dependent Variables)

More information

Linear Classification and SVM. Dr. Xin Zhang

Linear Classification and SVM. Dr. Xin Zhang Linear Classification and SVM Dr. Xin Zhang Email: eexinzhang@scut.edu.cn What is linear classification? Classification is intrinsically non-linear It puts non-identical things in the same class, so a

More information

Scale-Invariance of Support Vector Machines based on the Triangular Kernel. Abstract

Scale-Invariance of Support Vector Machines based on the Triangular Kernel. Abstract Scale-Invariance of Support Vector Machines based on the Triangular Kernel François Fleuret Hichem Sahbi IMEDIA Research Group INRIA Domaine de Voluceau 78150 Le Chesnay, France Abstract This paper focuses

More information

The Entire Regularization Path for the Support Vector Machine

The Entire Regularization Path for the Support Vector Machine The Entire Regularization Path for the Support Vector Machine Trevor Hastie Department of Statistics Stanford University Stanford, CA 905, USA hastie@stanford.edu Saharon Rosset IBM Watson Research Center

More information

Support Vector Machines

Support Vector Machines EE 17/7AT: Optimization Models in Engineering Section 11/1 - April 014 Support Vector Machines Lecturer: Arturo Fernandez Scribe: Arturo Fernandez 1 Support Vector Machines Revisited 1.1 Strictly) Separable

More information

Analiza variance in linearna regresija

Analiza variance in linearna regresija Analiza variance in linearna regresija Aleš Žiberna 28. november 2011 Kazalo 1 Uporabljeni podatki 2 2 Analiza variance (ANOVA) 2 2.1 Enofaktorska analiza variance za neodvisne vzorce....... 3 2.2 Večfaktorska

More information

Verifikacija napovedi padavin

Verifikacija napovedi padavin Oddelek za Meteorologijo Seminar: 4. letnik - univerzitetni program Verifikacija napovedi padavin Avtor: Matic Šavli Mentor: doc. dr. Nedjeljka Žagar 26. februar 2012 Povzetek Pojem verifikacije je v meteorologiji

More information

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work Predmet: Course title: UČNI NAČRT PREDMETA / COURSE SYLLABUS Optimizacija Optimization Študijski program in stopnja Study programme and level Visokošolski strokovni študijski program Praktična matematika

More information

Statistika 2 z računalniško analizo podatkov

Statistika 2 z računalniško analizo podatkov Statistika 2 z računalniško analizo podatkov Bivariatne analize 1 V Statistične analize v SPSS-ju V.4 Bivariatne analize Analyze - Descriptive statistics - Crosstabs Analyze Correlate Bivariate Analyze

More information

SUPPORT VECTOR MACHINE FOR THE SIMULTANEOUS APPROXIMATION OF A FUNCTION AND ITS DERIVATIVE

SUPPORT VECTOR MACHINE FOR THE SIMULTANEOUS APPROXIMATION OF A FUNCTION AND ITS DERIVATIVE SUPPORT VECTOR MACHINE FOR THE SIMULTANEOUS APPROXIMATION OF A FUNCTION AND ITS DERIVATIVE M. Lázaro 1, I. Santamaría 2, F. Pérez-Cruz 1, A. Artés-Rodríguez 1 1 Departamento de Teoría de la Señal y Comunicaciones

More information

Rudarjenje razpoloženja na komentarjih rtvslo.si

Rudarjenje razpoloženja na komentarjih rtvslo.si Univerza v Ljubljani Fakulteta za računalništvo in informatiko Brina Škoda Rudarjenje razpoloženja na komentarjih rtvslo.si DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM PRVE STOPNJE RAČUNALNIŠTVO IN

More information

Grafični gradnik za merjenje kvalitete klasifikatorja s pomočjo krivulj

Grafični gradnik za merjenje kvalitete klasifikatorja s pomočjo krivulj UNIVERZA V LJUBLJANI FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO Miha Biček Grafični gradnik za merjenje kvalitete klasifikatorja s pomočjo krivulj DIPLOMSKO DELO NA UNIVERZITETNEM ŠTUDIJU Mentor: doc. dr.

More information

Statistika 2 z računalniško analizo podatkov. Neizpolnjevanje predpostavk regresijskega modela

Statistika 2 z računalniško analizo podatkov. Neizpolnjevanje predpostavk regresijskega modela Statistika 2 z računalniško analizo podatkov Neizpolnjevanje predpostavk regresijskega modela 1 Predpostavke regresijskega modela (ponovitev) V regresijskem modelu navadno privzamemo naslednje pogoje:

More information

A L A BA M A L A W R E V IE W

A L A BA M A L A W R E V IE W A L A BA M A L A W R E V IE W Volume 52 Fall 2000 Number 1 B E F O R E D I S A B I L I T Y C I V I L R I G HT S : C I V I L W A R P E N S I O N S A N D TH E P O L I T I C S O F D I S A B I L I T Y I N

More information

Izvedbe hitrega urejanja za CPE in GPE

Izvedbe hitrega urejanja za CPE in GPE Univerza v Ljubljani Fakulteta za računalništvo in informatiko Jernej Erker Izvedbe hitrega urejanja za CPE in GPE DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJ RAČUNALNIŠTVA IN INFORMATIKE Mentor: doc. dr. Tomaž

More information

Interpolacija s parametričnimi polinomskimikrivuljami 1

Interpolacija s parametričnimi polinomskimikrivuljami 1 Interpolacija s parametričnimi polinomskimikrivuljami Emil Žagar 22. november 200 Skriptajevnastajanju,zatojegotovopolnanapak. Hvaleˇzenbomzavse pripombe. Iskanje napak je obenem del učnega procesa pri

More information

Rough Margin based Core Vector Machine

Rough Margin based Core Vector Machine Rough Margin based Core Vector Machine Gang Niu, Bo Dai 2, Lin Shang, and Yangsheng Ji State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 20093, P.R.China {niugang,jiyangsheng,lshang}@ai.nju.edu.cn

More information

Incorporating Invariances in Nonlinear Support Vector Machines

Incorporating Invariances in Nonlinear Support Vector Machines Incorporating Invariances in Nonlinear Support Vector Machines Olivier Chapelle olivier.chapelle@lip6.fr LIP6, Paris, France Biowulf Technologies Bernhard Scholkopf bernhard.schoelkopf@tuebingen.mpg.de

More information

Modelska Analiza 1. University of Ljubljana Faculty of Mathematics and Physics. 3. naloga - Numeri na minimizacija

Modelska Analiza 1. University of Ljubljana Faculty of Mathematics and Physics. 3. naloga - Numeri na minimizacija University of Ljubljana Faculty of Mathematics and Physics Modelska Analiza 1 3. naloga - Numeri na minimizacija Avtor: Matic Lubej Asistent: dr. Simon ƒopar Predavatelj: prof. dr. Alojz Kodre Ljubljana,

More information

Kernel Methods in Medical Imaging

Kernel Methods in Medical Imaging This is page 1 Printer: Opaque this Kernel Methods in Medical Imaging G. Charpiat, M. Hofmann, B. Schölkopf ABSTRACT We introduce machine learning techniques, more specifically kernel methods, and show

More information

Feature Selection and Classification on Matrix Data: From Large Margins To Small Covering Numbers

Feature Selection and Classification on Matrix Data: From Large Margins To Small Covering Numbers Feature Selection and Classification on Matrix Data: From Large Margins To Small Covering Numbers Sepp Hochreiter and Klaus Obermayer Department of Electrical Engineering and Computer Science Technische

More information

Predicting the Probability of Correct Classification

Predicting the Probability of Correct Classification Predicting the Probability of Correct Classification Gregory Z. Grudic Department of Computer Science University of Colorado, Boulder grudic@cs.colorado.edu Abstract We propose a formulation for binary

More information

SVM TRADE-OFF BETWEEN MAXIMIZE THE MARGIN AND MINIMIZE THE VARIABLES USED FOR REGRESSION

SVM TRADE-OFF BETWEEN MAXIMIZE THE MARGIN AND MINIMIZE THE VARIABLES USED FOR REGRESSION International Journal of Pure and Applied Mathematics Volume 87 No. 6 2013, 741-750 ISSN: 1311-8080 (printed version); ISSN: 1314-3395 (on-line version) url: http://www.ijpam.eu doi: http://dx.doi.org/10.12732/ijpam.v87i6.2

More information

Support Vector Machines (SVM) in bioinformatics. Day 1: Introduction to SVM

Support Vector Machines (SVM) in bioinformatics. Day 1: Introduction to SVM 1 Support Vector Machines (SVM) in bioinformatics Day 1: Introduction to SVM Jean-Philippe Vert Bioinformatics Center, Kyoto University, Japan Jean-Philippe.Vert@mines.org Human Genome Center, University

More information

Statistical Properties and Adaptive Tuning of Support Vector Machines

Statistical Properties and Adaptive Tuning of Support Vector Machines Machine Learning, 48, 115 136, 2002 c 2002 Kluwer Academic Publishers. Manufactured in The Netherlands. Statistical Properties and Adaptive Tuning of Support Vector Machines YI LIN yilin@stat.wisc.edu

More information

Hiperbolične funkcije DIPLOMSKO DELO

Hiperbolične funkcije DIPLOMSKO DELO UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA FAKULTETA ZA MATEMATIKO IN FIZIKO Študijski program: Matematika in fizika Hiperbolične funkcije DIPLOMSKO DELO Mentor: dr. Marko Razpet Kandidatka: Teja Bergant

More information

Nearest Neighbors Methods for Support Vector Machines

Nearest Neighbors Methods for Support Vector Machines Nearest Neighbors Methods for Support Vector Machines A. J. Quiroz, Dpto. de Matemáticas. Universidad de Los Andes joint work with María González-Lima, Universidad Simón Boĺıvar and Sergio A. Camelo, Universidad

More information

Linear programming support vector machines

Linear programming support vector machines Pattern Recognition 35 (00) 97 936 www.elsevier.com/locate/patcog Linear programming support vector machines Weida Zhou, Li Zhang, Licheng Jiao Key Laboratory for Radar Signal Processing, Xidian University,

More information

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Algebra 1 Course title: Algebra 1. Študijska smer Study field ECTS

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Algebra 1 Course title: Algebra 1. Študijska smer Study field ECTS UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Algebra 1 Course title: Algebra 1 Študijski program in stopnja Study programme and level Univerzitetni študijski program Matematika

More information

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA FAKULTETA ZA MATEMATIKO IN FIZIKO DIPLOMSKO DELO MIHAELA REMIC

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA FAKULTETA ZA MATEMATIKO IN FIZIKO DIPLOMSKO DELO MIHAELA REMIC UNIVERZ V LJULJNI PEDGOŠK FKULTET FKULTET Z MTEMTIKO IN FIZIKO DIPLOMSKO DELO MIHEL REMI UNIVERZ V LJULJNI PEDGOŠK FKULTET FKULTET Z MTEMTIKO IN FIZIKO Študijski program: Matematika in fizika ROUTHOV

More information

Lokalizacija mobilnega robota s pomočjo večsmerne kamere

Lokalizacija mobilnega robota s pomočjo večsmerne kamere Univerza v Ljubljani Fakulteta za računalništvo in informatiko Iztok Oder Lokalizacija mobilnega robota s pomočjo večsmerne kamere DIPLOMSKO DELO UNIVERZITETNI ŠTUDIJSKI PROGRAM PRVE STOPNJE RAČUNALNIŠTVO

More information

DELOVANJA GRUP IN BLOKI NEPRIMITIVNOSTI

DELOVANJA GRUP IN BLOKI NEPRIMITIVNOSTI UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA DEJAN KREJIĆ DELOVANJA GRUP IN BLOKI NEPRIMITIVNOSTI DIPLOMSKO DELO Ljubljana, 2015 UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA Dvopredmetni učitelj: matematika -

More information

Usmerjene nevronske mreže: implementacija in uporaba

Usmerjene nevronske mreže: implementacija in uporaba Seminar - 4. letnik Usmerjene nevronske mreže: implementacija in uporaba Avtor: Miha Marolt Mentorja: Marko Žnidarič, Drago Kuzman Kranj, 24.4.2010 Povzetek Usmerjena večnivojska nevronska mreˇza(uvnm)

More information

Support Vector Machines

Support Vector Machines Wien, June, 2010 Paul Hofmarcher, Stefan Theussl, WU Wien Hofmarcher/Theussl SVM 1/21 Linear Separable Separating Hyperplanes Non-Linear Separable Soft-Margin Hyperplanes Hofmarcher/Theussl SVM 2/21 (SVM)

More information

modeli regresijske analize nominalnih spremenljivk

modeli regresijske analize nominalnih spremenljivk modeli regresijske analize nominalnih spremenljivk Cveto Trampuž An Illustrative Comparison Logit Analysis with Dummy Variable Regression Analysis. Two different regression models in which the dependent

More information

POGLAVJE IV: Klasični in kvantni Monte-Carlo

POGLAVJE IV: Klasični in kvantni Monte-Carlo POGLAVJE IV: Klasični in kvantni Monte-Carlo V statistični fiziki nas često zanimajo povprečne vrednosti opazljivk v ravnovesnem, termalnem stanju, pri dobro znani vrednosti temperature in ostalih termodinamskih

More information

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SARA BREZEC HAUSDORFFOV PARADOKS DIPLOMSKO DELO LJUBLJANA, 2016 UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA DVOPREDMETNI UČITELJ MATEMATIKA-FIZIKA SARA BREZEC mentor:

More information

Sample width for multi-category classifiers

Sample width for multi-category classifiers R u t c o r Research R e p o r t Sample width for multi-category classifiers Martin Anthony a Joel Ratsaby b RRR 29-2012, November 2012 RUTCOR Rutgers Center for Operations Research Rutgers University

More information

Univerza na Primorskem. Fakulteta za matematiko, naravoslovje in informacijske tehnologije. Zaznavanje gibov. Zaključna naloga

Univerza na Primorskem. Fakulteta za matematiko, naravoslovje in informacijske tehnologije. Zaznavanje gibov. Zaključna naloga Univerza na Primorskem Fakulteta za matematiko, naravoslovje in informacijske tehnologije Boštjan Markežič Zaznavanje gibov Zaključna naloga Koper, september 2011 Mentor: doc. dr. Peter Rogelj Kazalo Slovarček

More information

Lecture Support Vector Machine (SVM) Classifiers

Lecture Support Vector Machine (SVM) Classifiers Introduction to Machine Learning Lecturer: Amir Globerson Lecture 6 Fall Semester Scribe: Yishay Mansour 6.1 Support Vector Machine (SVM) Classifiers Classification is one of the most important tasks in

More information

Makroekonomija 1: 4. vaje. Igor Feketija

Makroekonomija 1: 4. vaje. Igor Feketija Makroekonomija 1: 4. vaje Igor Feketija Teorija agregatnega povpraševanja AD = C + I + G + nx padajoča krivulja AD (v modelu AS-AD) učinek ponudbe denarja premiki vzdolž krivulje in premiki krivulje mikro

More information

Analysis of Multiclass Support Vector Machines

Analysis of Multiclass Support Vector Machines Analysis of Multiclass Support Vector Machines Shigeo Abe Graduate School of Science and Technology Kobe University Kobe, Japan abe@eedept.kobe-u.ac.jp Abstract Since support vector machines for pattern

More information

Mathematical Programming for Multiple Kernel Learning

Mathematical Programming for Multiple Kernel Learning Mathematical Programming for Multiple Kernel Learning Alex Zien Fraunhofer FIRST.IDA, Berlin, Germany Friedrich Miescher Laboratory, Tübingen, Germany 07. July 2009 Mathematical Programming Stream, EURO

More information

1 Introduction Support Vector Machines (SVMs) are state-of-the-art tools for linear and nonlinear knowledge discovery [14]. They were initially develo

1 Introduction Support Vector Machines (SVMs) are state-of-the-art tools for linear and nonlinear knowledge discovery [14]. They were initially develo Extension of the ν-svm Range for Classification Fernando Pérez-Cruz y, Jason Weston z, Daniel J. L. Hermann z and Bernhard Schölkopf z y Dpto. Teor a de la Se~nal y Comunicaciones, Universidad Carlos III

More information

1. Kernel ridge regression In contrast to ordinary least squares which has a cost function. m (θ T x (i) y (i) ) 2, J(θ) = 1 2.

1. Kernel ridge regression In contrast to ordinary least squares which has a cost function. m (θ T x (i) y (i) ) 2, J(θ) = 1 2. CS229 Problem Set #2 Solutions 1 CS 229, Public Course Problem Set #2 Solutions: Theory Kernels, SVMs, and 1. Kernel ridge regression In contrast to ordinary least squares which has a cost function J(θ)

More information

Support Vector Machines for Classification and Regression. 1 Linearly Separable Data: Hard Margin SVMs

Support Vector Machines for Classification and Regression. 1 Linearly Separable Data: Hard Margin SVMs E0 270 Machine Learning Lecture 5 (Jan 22, 203) Support Vector Machines for Classification and Regression Lecturer: Shivani Agarwal Disclaimer: These notes are a brief summary of the topics covered in

More information

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA JOŠT MLINARIČ KJE JE BILA KAMERA DIPLOMSKO DELO

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA JOŠT MLINARIČ KJE JE BILA KAMERA DIPLOMSKO DELO UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA JOŠT MLINARIČ KJE JE BILA KAMERA DIPLOMSKO DELO Ljubljana, 2017 UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA ŠTUDIJSKI PROGRAM: DVOPREDMETNI UČITELJ SMER: FIZIKA -

More information

Obisk iz rezultatov iskanj na iskalniku Google

Obisk iz rezultatov iskanj na iskalniku Google Univerza v Ljubljani Fakulteta za računalništvo in informatiko Uroš Okorn Obisk iz rezultatov iskanj na iskalniku Google DIPLOMSKO DELO VISOKOŠOLSKI STROKOVNI ŠTUDIJSKI PROGRAM PRVE STOPNJE RAČUNALNIŠTVO

More information

Support Vector Machines and Kernel Methods

Support Vector Machines and Kernel Methods 2018 CS420 Machine Learning, Lecture 3 Hangout from Prof. Andrew Ng. http://cs229.stanford.edu/notes/cs229-notes3.pdf Support Vector Machines and Kernel Methods Weinan Zhang Shanghai Jiao Tong University

More information

Machine Learning Lecture 6

Machine Learning Lecture 6 Talk Announcement Machine Learning Lecture 6 Nonlinear SVMs 06.05.009 Bastian Leibe RWTH Aachen http://www.umic.rwth-aachen.de/multimedia leibe@umic.rwth-aachen.de Many slides adapted from B. Schiele Volker

More information

Diversity Regularized Machine

Diversity Regularized Machine Diversity Regularized Machine Yang Yu and Yu-Feng Li and Zhi-Hua Zhou National Key Laboratory for Novel Software Technology Nanjing University, Nanjing 10093, China {yuy,liyf,zhouzh}@lamda.nju.edu.cn Abstract

More information

The Intrinsic Recurrent Support Vector Machine

The Intrinsic Recurrent Support Vector Machine he Intrinsic Recurrent Support Vector Machine Daniel Schneegaß 1,2, Anton Maximilian Schaefer 1,3, and homas Martinetz 2 1- Siemens AG, Corporate echnology, Learning Systems, Otto-Hahn-Ring 6, D-81739

More information

VERJETNOSTNI RAČUN IN STATISTIKA. Aleksandar Jurišić, FRI

VERJETNOSTNI RAČUN IN STATISTIKA. Aleksandar Jurišić, FRI VERJETNOSTNI RAČUN IN STATISTIKA Aleksandar Jurišić, FRI 2. avgust 2012 ii Seznam poglavij 1. Uvod........................... 1 I. VERJETNOST................... 7 2. Poskusi, dogodki in definicija verjetnosti............

More information

Multiple Kernel Learning, Conic Duality, and the SMO Algorithm

Multiple Kernel Learning, Conic Duality, and the SMO Algorithm Multiple Kernel Learning, Conic Duality, and the SMO Algorithm Francis R. Bach & Gert R. G. Lanckriet {fbach,gert}@cs.berkeley.edu Department of Electrical Engineering and Computer Science, University

More information

Bayesove verjetnostne mreže

Bayesove verjetnostne mreže Bayesove verjetnostne mreže Martin Žnidaršič Seminarska naloga pri predmetu Avtomatsko učenje Nosilec predmeta: prof. dr. Igor Kononenko Povzetek Uporaba verjetnostnega sklepanja je na področju umetne

More information

A Dual Coordinate Descent Method for Large-scale Linear SVM

A Dual Coordinate Descent Method for Large-scale Linear SVM Cho-Jui Hsieh b92085@csie.ntu.edu.tw Kai-Wei Chang b92084@csie.ntu.edu.tw Chih-Jen Lin cjlin@csie.ntu.edu.tw Department of Computer Science, National Taiwan University, Taipei 06, Taiwan S. Sathiya Keerthi

More information

Fast Kernel Learning using Sequential Minimal Optimization

Fast Kernel Learning using Sequential Minimal Optimization Fast Kernel Learning using Sequential Minimal Optimization Francis R. Bach & Gert R. G. Lanckriet {fbach,gert}@cs.berkeley.edu Division of Computer Science, Department of Electrical Engineering and Computer

More information

2 Zaznavanje registrske tablice

2 Zaznavanje registrske tablice Razpoznavanje avtomobilskih registrskih tablic z uporabo nevronskih mrež Matej Kseneman doc. dr. Peter Planinšič, mag. Tomaž Romih, doc. dr. Dušan Gleich (mentorji) Univerza v Mariboru, Laboratorij za

More information

Synthesis of Maximum Margin and Multiview Learning using Unlabeled Data

Synthesis of Maximum Margin and Multiview Learning using Unlabeled Data Synthesis of Maximum Margin and Multiview Learning using Unlabeled Data Sandor Szedma 1 and John Shawe-Taylor 1 1 - Electronics and Computer Science, ISIS Group University of Southampton, SO17 1BJ, United

More information

Support Vector Machines

Support Vector Machines Support Vector Machines Bingyu Wang, Virgil Pavlu March 30, 2015 based on notes by Andrew Ng. 1 What s SVM The original SVM algorithm was invented by Vladimir N. Vapnik 1 and the current standard incarnation

More information

Multicategory Support Vector Machines

Multicategory Support Vector Machines Multicategory Support Vector Machines Yoonkyung Lee, Yi Lin, & Grace Wahba Department of Statistics University of Wisconsin-Madison yklee,yilin,wahba@stat.wisc.edu Abstract The Support Vector Machine (SVM)

More information

NAPOVEDOVANJE STEČAJEV PODJETIJ Z LOGIT MODELOM IN DISKRIMINANTNO ANALIZO

NAPOVEDOVANJE STEČAJEV PODJETIJ Z LOGIT MODELOM IN DISKRIMINANTNO ANALIZO UNIVERZA V LJUBLJANI EKONOMSKA FAKULTETA DIPLOMSKO DELO NAPOVEDOVANJE STEČAJEV PODJETIJ Z LOGIT MODELOM IN DISKRIMINANTNO ANALIZO Ljubljana, januar 2008 MATJAŽ ŠIRCA IZJAVA Študent Matjaž Širca izjavljam,

More information

56 1 Upogib z osno silo

56 1 Upogib z osno silo 56 1 Upogib z osno silo PREGLEDNICA 1.5 (nadaljevanje): Upogibnice in notranje sile za nekatere nosilce d) Upogibnica prostoležečega nosilca obteženega s silo F Pomik in zasuk v polju 1: w 1 = F b x (L

More information

DOMINACIJSKO TEVILO GRAFA

DOMINACIJSKO TEVILO GRAFA UNIVERZA V LJUBLJANI PEDAGO KA FAKULTETA tudijski program: MATEMATIKA in RAƒUNALNI TVO DOMINACIJSKO TEVILO GRAFA DIPLOMSKO DELO Mentor: doc. dr. Primoº parl Kandidatka: Neja Zub i Ljubljana, maj, 2011

More information

MinOver Revisited for Incremental Support-Vector-Classification

MinOver Revisited for Incremental Support-Vector-Classification MinOver Revisited for Incremental Support-Vector-Classification Thomas Martinetz Institute for Neuro- and Bioinformatics University of Lübeck D-23538 Lübeck, Germany martinetz@informatik.uni-luebeck.de

More information

CS , Fall 2011 Assignment 2 Solutions

CS , Fall 2011 Assignment 2 Solutions CS 94-0, Fall 20 Assignment 2 Solutions (8 pts) In this question we briefly review the expressiveness of kernels (a) Construct a support vector machine that computes the XOR function Use values of + and

More information

Convex Optimization Algorithms for Machine Learning in 10 Slides

Convex Optimization Algorithms for Machine Learning in 10 Slides Convex Optimization Algorithms for Machine Learning in 10 Slides Presenter: Jul. 15. 2015 Outline 1 Quadratic Problem Linear System 2 Smooth Problem Newton-CG 3 Composite Problem Proximal-Newton-CD 4 Non-smooth,

More information

MATEMATIKA 1 UNIVERZITETNI ŠTUDIJSKI PROGRAM BIOKEMIJA 1. LETNIK

MATEMATIKA 1 UNIVERZITETNI ŠTUDIJSKI PROGRAM BIOKEMIJA 1. LETNIK abc UNIVERZITETNI ŠTUDIJSKI PROGRAM BIOKEMIJA 1. LETNIK f: A B f: f() A je argument, f() B je funkcijska vrednost. Funkcija je pravilo, ki vsakemu argumentu priredi eno funkcijsko vrednost. Glavna operacija

More information