Jádrové odhady gradientu regresní funkce

Monika Kroupová Ivana Horová Jan Koláček Ústav matematiky a statistiky, Masarykova univerzita, Brno ROBUST 2018

Osnova Regresní model a odhad gradientu Metody pro odhad vyhlazovací matice Simulace Závěr

Regresní model Uvažujeme regresní model Y i = m(x i ) + ε i, i = 1,..., n, Y 1,..., Y n měření m(x i ) regresní funkce v bodě x i x i nenáhodné prediktory v [0, 1] d chyby měření ε 1,..., ε n jsou i.i.d. s E(ε i ) = 0, var(ε i ) = σ 2 > 0

Lokálně lineární odhady Regresní funkci nahradíme polynomem prvního stupně a pomocí vážených nejmenších čtverců odhadneme regresní koeficienty β Y 1 1 (x 1 x) T ( ) ε 1 β0. =.. + β Y n 1 (x 2 x) T. 1 ε n W = diag(k H (x 1 x),..., K H (x n x)), kde K H (x) = H 1/2 K(H 1/2 x), H H D je diagonální vyhlazovací matice diag(h 2 1, h2 2 ).

Odhad regresních koeficientů Odhad regresních koeficientů metodou vážených nejmenších čtverců je ˆβˆβˆβ = (X T WX) 1 X T WY. Zavedeme značení s 0 = 1 n K H (x i x), s 1 = 1 n K H (x i x)(x i x), n n S 2 = 1 n τ 0 = 1 n i=1 i=1 n K H (x i x)(x i x)(x i x) T, i=1 n K H (x i x)y i, i=1 ˆβˆβˆβ = ( s0 s T 1 s 1 S 2 ) 1 ( τ0 τ 1 ) τ 1 = 1 n n K H (x i x)(x i x)y i. i=1

Odhad regresní funkce a gradientu Odhad regresní funkce m(x, H) = ˆβ 0 = 1 nc (τ 0 s T 1 S 1 2 τ 1 ). Odhad gradientu regresní funkce Dm(x, H) = β ˆ 1 = 1 nc kde c = s 0 s T 1 S 1 2 s 1. ( ( S 1 2 s 1τ 0 + S 1 2 I 2 c + s 1 s T 1 S 1 2 ) ) τ 1,

Vlastnosti odhadu Kvalitu odhadu posuzujeme pomocí střední integrální kvadratické chyby MISE(H) = E Dm(x, H) Dm(x) 2 dx = IV(H) + ISB(H), IV(H) = Var Dm(x, H)dx, ISB(H) = E Dm(x, H) Dm(x) 2 dx, kde je Eukleidovská norma.

Metoda křížového ověřování (Stone 1974) Odhad ĤCV,1 minimalizuje CV(H) = 1 n n Dm i (x i, H) Y (1) 2, i=2 i kde Y (1) i je parciální diference v x i a Dm j (x j, H) značí odhad gradientu regresní funkce bodě x j bez použití bodu x j.

Lepskiho metoda (Goldenshluger and Lepski 2011) Odhad ĤL,1 minimalizuje kde L(H) = ÂIV(H) + ÂISB(H), ÂIV(H) = n 1 H 1/2 tr{h 1 V (DK)}ˆσ 2, ˆσ 2 = 1 n (Y i Y i 1 ) 2, 2n 2 i=2 [ ] 1 n ÂISB(H) = max Dm(x i, G) G H D n Dm(x i, H) 2 ÂIV(G) i=1 +

Navrhovaná metoda Využijeme parciální derivace AMISE AMISE(H) h 1 h 1 + AMISE(H) h 2 h 2 = 0 AIV(H) AISB(H) = 0 Hlavní myšlenka metody spočívá v řešení rovnice ÂIV(H) ÂISB(H) = 0

Navrhovaná metoda - Odhad ÂIV(H) Odhad ÂIV(H) je stejný jako v případě Lepskiho metody, tedy ÂIV(H) = n 1 H 1/2 tr{h 1 V (DK)}ˆσ 2, ˆσ 2 = 1 n (Y i Y i 1 ) 2. 2n 2 i=2

Navrhovaná metoda - Odhad ÂISB(H, x) ÂISB(H) = ÂSB(H, x) = 1 E Dm(x, H) Dm(x, H) 2 dx = 1 n τ ε 0 = 1 n τ ε 1 = 1 n c 2 S 2 2 {( I 2 c + s 1 s T 1 S 1 2 n ÂSB(H, x i ), i=1 ) τ ε 1 s 1 τ ε 0 } 2, n K H (x i x)( m(x i, Ĝ) Y i), i=1 n K H (x i x)(x i x)( m(x i, Ĝ) Y i) i=1 a Ĝ je odhad optimální vyhlazovací matice pro jádrový odhad m(x), viz např. (Koláček a Horová 2017).

Simulace 100 opakování náhodných vzorků regresních modelů pro 6 regresních funkcí na [0, 1] 2. Náhodné chyby byly generovány jako i.i.d. ε i N(0; 0,2). Velikost vzorků byla n = 100. Při odhadech bylo použito ( Gaussovo ) jádro K(x 1, x 2 ) = 1 2π exp x2 1 2 x2 2 2. Pro každý odhad byla spočítána chyba, ISE = Dm(x, H) Dm(x) 2 dx a byly porovnány uvedené metody pro odhad optimální vyhlazovací matice.

x 1 m(x 1, x 2 ) = π cos(π(x 1 + x 2 )) + 1 IT metoda LEP median std IT 1,7581 0,2079 LEP 1,3809 0,2869 CV 1,8114 0,4300 CV 0.5 1.0 1.5 2.0 2.5

x 1 m(x 1, x 2 ) = 2 sin ( ) x 2 1 2 e 2 x 1 +x 2 1 sin ( e ) 2 x 1+x 2 1 IT metoda LEP median std IT 0,6970 0,0731 LEP 1,2879 0,2635 CV 1,7946 0,4246 CV 0.5 1.0 1.5 2.0 2.5

x 1 m(x 1, x 2 ) = 1 4 (2x 1 1)e (x1 1 2 ) 2 +(x 2 2 1 )2 4 IT metoda LEP median std IT -2,4857 0,6800 LEP 0,3348 0,4655 CV 0,9395 0,9234 CV 3 2 1 0 1 2

x 1 m(x 1, x 2 ) = 2(2x 1 3,5)(x 2 0,7)(x 2 0,5) IT metoda LEP median std IT 0,1579 0,1939 LEP 0,4393 0,3194 CV 1,0543 0,6578 CV 1 0 1

x 1 m(x 1, x 2 ) = 2x 1 1 IT metoda LEP median std IT -0,5847 0,2271 LEP -0,4134 0,3938 CV 0,2671 0,5668 CV 1.0 0.5 0.0 0.5

x 1 m(x 1, x 2 ) = e x 2 1 x 2 2 ( 4x 3 1 + 4x 1 6x 1 x 2 2 ) IT metoda LEP median std IT -0,6693 0,3020 LEP 0,7764 0,5005 CV 1,5045 0,6361 CV 1 0 1 2

Výhody a nevýhody navržené metody Poměrně rychlá a efektivní metoda pro odhad gradientu regresní funkce. Vhodná metoda např. při hledání lokálních extrémů. Kvalita odhadu závisí na počátečním odhadu regresní funkce m.

Literatura A. Goldenshluger, O. Lepski: Bandwidth selection in kernel density estimation: oracle inequalities and adaptive minimax optimality, The Annals of Statistics 39, 3, pp. 1608 1632, (2011). J. Koláček, I. Horová: Bandwidth matrix selectors for kernel regression, Computational Statistics 32, 3, pp. 1027 1046, (2017). M. Stone: Cross-validatory choice and assessment of statistical predictions, Journal of the Royal Statistical Society Series B Statistical Methodology 36, 2, pp. 111 147, (1974). M. P. Wand, M. C. Jones: Kernel Smoothing, London: Chapman & Hall, (1995).

Děkuji za pozornost.