Gaussian Process Introduction

Size: px

Start display at page:

Download "Gaussian Process Introduction"

Earl Stafford
5 years ago
Views:

1 Gaussian Processes Gaussian Process Introduction Lukáš Bajer 1,2 1 Faculty of Mathematics and Physics, Charles University, 2 Institute of Computer Science, Czech Academy of Sciences, and Prague, Czech Republic May 2014 Lukáš Bajer Gaussian Process Introduction 1

2 Gaussian Processes Gaussian Process GP is a stochastic approximation method based on Gaussian distributions Lukáš Bajer Gaussian Process Introduction 2

3 Gaussian Processes Gaussian Process GP is a stochastic approximation method based on Gaussian distributions GP can express uncertainty of the prediction in a new point x: it gives a probability distribution of the output value Lukáš Bajer Gaussian Process Introduction 2

4 Gaussian Processes Gaussian Process given a set of N training points X N = (x 1... x N ), x i R d, and measured values y N = (y 1,..., y N ) of a function f being approximated y i = f (x i ), i = 1,..., N Lukáš Bajer Gaussian Process Introduction 3

5 Gaussian Processes Gaussian Process given a set of N training points X N = (x 1... x N ), x i R d, and measured values y N = (y 1,..., y N ) of a function f being approximated y i = f (x i ), i = 1,..., N GP considers vector of these function values as a sample from N-variate Gaussian distribution y N N(0, C N ) Lukáš Bajer Gaussian Process Introduction 3

6 Gaussian Processes Gaussian Process X = (x 1... x N ), x i R d y = (y 1,..., y N ), y i = f (x i ) N training data points measured function values y R N considered to be a realisation of a N-dimensional Gaussian distribution with a covariance matrix C N and zero mean y N(0, C N ) Lukáš Bajer Gaussian Process Introduction 4

7 Gaussian Processes Gaussian Process X = (x 1... x N ), x i R d y = (y 1,..., y N ), y i = f (x i ) N training data points measured function values y R N considered to be a realisation of a N-dimensional Gaussian distribution with a covariance matrix C N and zero mean y N(0, C N ) Covariance C N is determined by covariance function cov(x i, x j ) and its hyperparameters training data points X N forming the density of the Gaussian p(y X N ) Lukáš Bajer Gaussian Process Introduction 4

8 Gaussian Processes Gaussian Process covariance covariance C N is given by C N = K + σ 2 I where K is a matrix of covariance function values and σ 2 is the signal noise. Lukáš Bajer Gaussian Process Introduction 5

9 Gaussian Processes Gaussian Process covariance covariance C N is given by C N = K + σ 2 I where K is a matrix of covariance function values and σ 2 is the signal noise. Covariance functions are defined on pairs from the input space (K) ij = cov(x i, x j ), x i,j R d expressing the degree of correlations between two points values; typically decreasing functions on two points distance 1 cov(x i, x j ) d(x i, x j ) Lukáš Bajer Gaussian Process Introduction 5

10 Gaussian Processes Gaussian Process covariance The most frequent covariance function is squared-exponential (K) ij = cov SE (x i, x j ) = θ exp( 1 2l 2 (x i x j ) (x i x j )) with the parameters (usually fitted by MLE) θ signal variance (scales the correlation) l characteristic length scale Lukáš Bajer Gaussian Process Introduction 6

11 Gaussian Processes Gaussian Process prediction Making predictions Prediction y in a new point x is made by adding this new point to the matrix X N and vector y N. Lukáš Bajer Gaussian Process Introduction 7

12 Gaussian Processes Gaussian Process prediction Making predictions Prediction y in a new point x is made by adding this new point to the matrix X N and vector y N. This gives an (N + 1)-dimensional Gaussian with density p(y N+1 X N+1 ) = 1 (2π) N+1 det(c N+1 ) exp( 1 2 y N+1C 1 N+1 y N+1) Lukáš Bajer Gaussian Process Introduction 7

13 Gaussian Processes Gaussian Process prediction Making predictions Prediction y in a new point x is made by adding this new point to the matrix X N and vector y N. This gives an (N + 1)-dimensional Gaussian with density p(y N+1 X N+1 ) = 1 (2π) N+1 det(c N+1 ) exp( 1 2 y N+1C 1 N+1 y N+1) where C N+1 is the covariance matrix ( CN k C N+1 = k κ + σ ) which is C N extended with k covariances between x and X N κ + σ variance of the new point itself (with added signal noise) Lukáš Bajer Gaussian Process Introduction 7

14 Gaussian Processes Gaussian Process prediction Making predictions Because y N is known and the inverse C 1 N+1 can be expressed using inverse of the training covariance C 1 N, Lukáš Bajer Gaussian Process Introduction 8

15 Gaussian Processes Gaussian Process prediction Making predictions Because y N is known and the inverse C 1 N+1 can be expressed using inverse of the training covariance C 1 N, the density in a new point marginalize to 1D Gaussian density ( ) p(y X N+1, y N ) exp 1 (y ŷ N+1 ) 2 2 s 2 y N+1 Lukáš Bajer Gaussian Process Introduction 8

16 Gaussian Processes Gaussian Process prediction Making predictions Because y N is known and the inverse C 1 N+1 can be expressed using inverse of the training covariance C 1 N, the density in a new point marginalize to 1D Gaussian density ( ) p(y X N+1, y N ) exp 1 (y ŷ N+1 ) 2 2 s 2 y N+1 with the mean and variance given by ŷ N+1 = k C N 1 y N, s 2 y N+1 = κ k C N 1 k. Lukáš Bajer Gaussian Process Introduction 8

17 Urychlení evoluční optimalizace pomocí gaussovských procesů Zbyněk Pitra Fakulta jaderná a fyzikálně inženýrská, ČVUT 2014

18 Úvod Evoluční algoritmy Náhradní modelování GENACAT Gaussovské procesy jako náhradní model Testování

19 Motivace Optimalizace katalyzátorů pro specifickou reakci Prostory o velké dimenzi (až 50)

20 Motivace Optimalizace katalyzátorů pro specifickou reakci Prostory o velké dimenzi (až 50) Diskrétní a spojité proměnné

21 Motivace Optimalizace katalyzátorů pro specifickou reakci Prostory o velké dimenzi (až 50) Diskrétní a spojité proměnné Mnoho omezení

22 Evoluční a genetické algoritmy Chování organismů v umělém prostředí = kvalita řešení fitness funkce Jedinec přípustné řešení Populace = množina jedinců Výběr populace a následný vývoj Typy: Genetické algoritmy, Evoluční programování,...

23 Genetické algoritmy Schéma Nultá populace Výběr několika jedinců Vznik další generace: křížení, mutace, reprodukce Ohodnocení nových jedinců Kontrola ukončovací podmínky Konec algoritmu

24 Genetické algoritmy Výhody:

25 Genetické algoritmy Výhody: Odolnost vůči uvíznutí v lokálním optimu

26 Genetické algoritmy Výhody: Odolnost vůči uvíznutí v lokálním optimu Dobré výsledky u problémů s rozsáhlými množinami přípustných řešení

27 Genetické algoritmy Výhody: Odolnost vůči uvíznutí v lokálním optimu Dobré výsledky u problémů s rozsáhlými množinami přípustných řešení Nevýhody:

28 Genetické algoritmy Výhody: Odolnost vůči uvíznutí v lokálním optimu Dobré výsledky u problémů s rozsáhlými množinami přípustných řešení Nevýhody: Problém s nalezením přesného optima

29 Genetické algoritmy Výhody: Odolnost vůči uvíznutí v lokálním optimu Dobré výsledky u problémů s rozsáhlými množinami přípustných řešení Nevýhody: Problém s nalezením přesného optima Velké množství vyhodnocování cílové funkce

30 Náhradní modelování Metoda využívající model místo skutečných dat Aproximace neznámé funkce f : Ω C q z omezeného počtu dat {x 1,, x k } Ω, kde Ω R d Gaussovské procesy, neuronové sítě, náhodné lesy, atd.

31 Náhradní modelování Hledání nejlepší aproximace f = arg min t T ( ) arg min Λ ε, f t,θ, D θ Θ f t,θ aproximační funkce s parametrizací θ a typem modelu t Λ odhad kvality modelu ε chybová funkce D = {(x 1, f (x 1 )),..., (x k, f (x k ))} Θ parametrický prostor f T množina typů modelů

32 Náhradní modelování Genetické algoritmy a náhradní modelování Není třeba vždy vyhodnocovat skutečnou fitness funkci Řízení evoluce založené na jedincích generacích

33 GENACAT Systém pro genetickou optimalizaci Leibnitzův institut pro katalýzu (LIKAT) v Německu Automatické generování uživatelem definovaných genetických algoritmů Náhradní modelování pomocí neuronových sítí a gaussovských procesů

34 Gaussovské procesy Gaussovský process je náhodný proces, kde libovolná konečná podmnožina náhodných veličin má sdružené gaussovké rozdělení. Hyperparametry:

35 Gaussovské procesy Gaussovský process je náhodný proces, kde libovolná konečná podmnožina náhodných veličin má sdružené gaussovké rozdělení. Hyperparametry: Volné parametry kovarianční funkce gaussovského procesu

36 Gaussovské procesy Gaussovský process je náhodný proces, kde libovolná konečná podmnožina náhodných veličin má sdružené gaussovké rozdělení. Hyperparametry: Volné parametry kovarianční funkce gaussovského procesu Optimalizovány pomocí maximální věrohodnosti

37 Gaussovské procesy Gaussovský process je náhodný proces, kde libovolná konečná podmnožina náhodných veličin má sdružené gaussovké rozdělení. Hyperparametry: Volné parametry kovarianční funkce gaussovského procesu Optimalizovány pomocí maximální věrohodnosti Vlastnosti:

38 Gaussovské procesy Gaussovský process je náhodný proces, kde libovolná konečná podmnožina náhodných veličin má sdružené gaussovké rozdělení. Hyperparametry: Volné parametry kovarianční funkce gaussovského procesu Optimalizovány pomocí maximální věrohodnosti Vlastnosti: Nepotřebují předdefinovanou strukturu

39 Gaussovské procesy Gaussovský process je náhodný proces, kde libovolná konečná podmnožina náhodných veličin má sdružené gaussovké rozdělení. Hyperparametry: Volné parametry kovarianční funkce gaussovského procesu Optimalizovány pomocí maximální věrohodnosti Vlastnosti: Nepotřebují předdefinovanou strukturu Aproximace libovolných funkcí

40 Gaussovské procesy Gaussovský process je náhodný proces, kde libovolná konečná podmnožina náhodných veličin má sdružené gaussovké rozdělení. Hyperparametry: Volné parametry kovarianční funkce gaussovského procesu Optimalizovány pomocí maximální věrohodnosti Vlastnosti: Nepotřebují předdefinovanou strukturu Aproximace libovolných funkcí Nastavitelné kovarianční funkce s jejich hyperparametry

41 GENACAT Hlavní schéma

42 Náhradní model s gaussovskými procesy Genetický algoritmus s gaussovskými procesy repeat until (UKONČOVACÍ PODMÍNKA je splněna) do ActualPop := poslední generace jedinců z databáze; Empirical := všichni jedinci ohodnocení skutečnou fitness; Model := gplearnmodel(empirical); if řízení založené na jedincích then ZVYŠ počet jedinců pro přehodnocení modelem; for Gen := 1 to požadovaný počet generací VYPOČÍTEJ počty jedinců ActualPop v přípustných mnohostěnech; ChosenPol:= mnohostěny vybrané diskrétní optimalizací; NewPop:= gpsimrun(chosenpol); ZAPIŠ NewPop do database; ActualPop:= NewPop; end PŘEHODNOŤ některé jedince z poslední NewPop skutečnou fitness; end

43 Náhradní model s gaussovskými procesy Spojitá optimalizace - gpsimrun Vstup: ChosenPol (vybrané mnohostěny), Model (natrénovaný model),ker (zadaná jádra) for mnohostěny M z ChosenPol Ker(M):= VYHLEDEJ jádro z Model pro M; if ActualPop(M) je neprázdná then GENERUJ novou populaci NewPop(M) genetickými operacemi z ActualPop(M); else GENERUJ NewPop(M) náhodně; end Výstup: nová populace NewPop

44 Náhradní model s gaussovskými procesy Trénovací procedura - gplearnmodel Vstup: Empirical (Empirical data), p (minimální velikost shluku), Ker (zadaná jádra) n := p*x/(x-1); ROZDĚL Empirical do k shluků cl, aby velikost (cl) n for i:= 1 to k Err(i,Ker):= kernelerror(cl(i),ker); MainKer(i):= Ker(i), kde Err(i,Ker) je minimální; Hyp(MainKer,i):=argmax θ (věrohodnost(cl(i))); end Výstup: MainKer a Hyp(MainKer) pro každý shluk cl

45 Náhradní model s gaussovskými procesy Procedura počítající chybu Vstup: cl (shluk), x (násobnost křížové validace), Ker (zadaná jádra) for Ker PROVEĎ x-násobnou křížovou validaci cl, kde v každém foldu: Hyp(Ker):= odhad hyperparametrů θ; Hyp(Ker):= argmax θ (věrohodnost(cl)); Err(Ker):= průměrná chyba z křížové validace; end Výstup: Err chyby pro shluk cl a všechna jádra z Ker

46 GENACAT Nastavení gaussovských procesů

47 Testování na empirických datech Nejvhodnější katalyzátor při výrobě HCN generace Zlepšování modelu v závislosti na rostoucí trénovací množině 3 modely - minimální počty jedinců ve shluku 30 jedinců 100 jedinců bez shlukování

48 Testování na empirických datech 30 jedinců na 4. generaci 80 Minimální velikost shluku: 30, 4. generace 70 Fitness odhadnutá modelem Reálná fitness

49 Testování na empirických datech 100 jedinců na 4. generaci 80 Minimální velikost shluku: 100, 4. generace 70 Fitness odhadnutá modelem Reálná fitness

50 Testování na empirických datech Bez shlukování na 4. generaci 80 Minimální velikost shluku: maximum, 4. generace 70 Fitness odhadnutá modelem Reálná fitness

51 Testování na empirických datech 30 jedinců na 5. generaci 80 Minimální velikost shluku: 30, 5. generace 70 Fitness odhadnutá modelem Reálná fitness

52 Testování na empirických datech 30 jedinců na 6. generaci 80 Minimální velikost shluku: 30, 6. generace Fitness odhadnutá modelem Reálná fitness

53 Testování na empirických datech 30 jedinců na 7. generaci 80 Minimální velikost shluku: 30, 7. generace 70 Fitness odhadnutá modelem Reálná fitness

54 Testování na empirických datech MSE v závislosti na minimálním počtu jedinců ve shluku 220 MSE podle nastavení shlukování všichni 160 MSE Generace

55 Testování na funkci valero Optimalizace umělé funkce valero 15. generací Porovnání genetického algoritmu bez náhradního modelu a algoritmu s náhradním modelem s gaussovskými procesy Řízení evoluce generační založené na jedincích výběr nejlepších jedinců výběr reprezentantů kombinace

56 Testování na funkci valero Závislost fitness funkce na generaci - individuální řízení - výběr nejlepších Nejlepší fitness GA GP nejlepší jedinci Generace

57 Testování na funkci valero Závislost fitness funkce na generaci - individuální řízení - výběr reprezentantů Nejlepší fitness GA GP reprezentanti Generace

58 Testování na funkci valero Závislost fitness funkce na generaci - individuální řízení - výběr nejlepších + reprezentantů Nejlepší fitness GA GP reprezentanti a nejlepší jedinci Generace

59 Testování na funkci valero Závislost fitness funkce na generaci - individuální řízení - výběr nejlepších + náhodný Nejlepší fitness GA GP náhodní a nejlepší jedinci Generace

60 Testování na funkci valero Závislost fitness funkce na generaci - individuální řízení Nejlepší fitness GP nejlepší jedinci GP reprezentanti 400 GP náhodní a nejlepší jedinci GP reprezentanti a nejlepší jedinci Generace

61 Testování na funkci valero Závislost fitness funkce na generaci - generační řízení Nejlepší fitness GA GP generace Generace

62 Testování na funkci valero Závislost fitness funkce na počtu vyhodnocení - generační řízení Nejlepší fitness GA GP generace Ohodnocení funkcí valero

63 Testování na funkci valero Závislost fitness funkce na počtu vyhodnocení - generační a individuální řízení Nejlepší fitness GP nejlepší jedinci GP generace Ohodnocení funkcí valero

64 Testování na funkci valero Závislost fitness funkce na generaci - individuální řízení - opakované trénování Nejlepší fitness GA GP nejlepší po generaci Generace

65 Testování na funkci valero Závislost fitness funkce na generaci - individuální řízení - opakované trénování a bez opakování Nejlepší fitness GP nejlepší jedinci GP nejlepší po generaci Generace

66 Testování na funkci valero Porovnání testovaných nastavení Kvantita vyhodnocení do 95% maxima GA GP nejlepší jedinci GP reprezentanti GP náhodní a nejlepší jedinci GP reprezentanti a nejlepší jedinci GP generace GP opakování Medián nejlepší fitness

67 Shrnutí výsledků testování Dobré výsledky na empirických datech Náhradní model s gaussovskými procesy urychluje konvergenci Největší urychlení výběr nejlepších jedinců

68 Možnosti dalšího rozvoje systému GENACAT Rozšíření možností řízení evoluce Další typ náhradního modelu

69 Závěr Děkuji za pozornost!

Jádrové odhady gradientu regresní funkce

Jádrové odhady gradientu regresní funkce Monika Kroupová Ivana Horová Jan Koláček Ústav matematiky a statistiky, Masarykova univerzita, Brno ROBUST 2018 Osnova Regresní model a odhad gradientu Metody pro odhad vyhlazovací matice Simulace Závěr