Univerza na Primorskem FAMNIT, MFI STATISTIKA 2 Seminarska naloga

Size: px

Start display at page:

Download "Univerza na Primorskem FAMNIT, MFI STATISTIKA 2 Seminarska naloga"

Augustine Powers
5 years ago
Views:

1 Univerza na Primorskem FAMNIT, MFI STATISTIKA 2 Seminarska naloga Naloge so edini način preverjanja znanja pri predmetu Statistika. Vsaka naloga je vredna 10 točk, natančna pravila ocenjevanja pa so navedena na spletni strani predmeta.

2 1. Naj bodo ξ 1, ξ 2,..., ξ n neodvisne z ξ k exp1) za k = 1, 2,..., n. Označite ξ = ξ ξ n. Za 1 k n definirajte η k = Za fiksen 1 k n 1 naj bo ξ k ξ ξ n. η i = ξ i ξ k + ξ k ξ n za i = k, k + 1,..., n. a. Izračunajte gostoto vektorja η 1, η 2,..., η n 1, ξ). b. Pokažite, da sta slučajna vektorja η 1,..., η k 1 ) in η k,..., η n ) neodvisna. 2. Slučajne spremenljivke X, Y in Z naj imajo gosototo 1 πγ n 1 ) Γ n xy z2 ) n e x/2 e y/2 2 2 )2n za x > 0, y > 0 in xy z 2 > 0. a. Pokažite, da sta slučajni spremenljivki X in Y neodvisni. Kakšni sta porazdelitvi X in Y? b. Definirajte slučajne spremenljivke U, V in W s predpisom ) ) 1 U W X Z =. W V Z Y Ali sta slučajni spremenljivki U in V neodvisni? Kot znano privzemite, da je Jacobijeva determinanta preslikave x, y, z) Φ 1 y, x, z) xy z2 enaka xy z 2 ) 3. Preverite to slednje. 2

3 3. Suppose Z is a random vector whose components are independent standard normal random variables and let A be a rectangular matrix such that AA T is invertible. Prove that the density of X = AZ + µ is still given by the formula 1 f X x) = exp 2π) detaa 1 ) n/2 T 2 x µ)t AA T ) 1 x µ). ) 4. Suppose X is a multivariate normal vector with expectation µ and variance Σ. Write ) ) X1 Σ11 Σ X = and Σ = 12. X 2 Σ 21 Σ 22 Assume Σ is invertible. Compute the conditional density of X 2 given X 1 = x 1 by using the usual formula Hint: Use the inversion lemma Σ 1 = f X2 X 1 =x 1 x 2 ) = f Xx) f X1 x 1 ). Σ 11 Σ 12 Σ 1 22 Σ 21 ) 1 Σ 11 Σ 12 Σ 1 22 Σ 21 ) 1 Σ 12 Σ 1 22 Σ 1 22 Σ 21 Σ 11 Σ 12 Σ 1 22 Σ 21 ) 1 Σ 22 Σ 21 Σ 1 11 Σ 12 ) 1 Compare this proof to the slicker one using independence of linear transformations of multivariate normal vectors. Comment. 5. Let X be a n p data matrix from N p µ, Σ). This means that the rows of X are independent p-dimensional vectors with the above distribution. Let a, b be fixed p dimensional vectors and c a fixed n-dimensional vector. Find the conditional distribution of Y 2 = Xb given Y 1 = c T Xa. Hint: You can either do it the hard way computing all the covariances, or show that ) I cct Xa c T c is independent of Y 1. ) 3

4 6. Suppose X 1, X 2,..., X n are i.i.d. observations from a multivariate normal distribution Nµ, Σ) where Σ is known. Further assume that R is a given matrix and r a given vector. For a given vector r use the likelihood ratio procedure to produce a test statistic for H 0 : Rµ = r vs. H 1 : Rµ r. Find the exact distribution of the likelihood ratio test statistic under H Vrstice v matriki X naj bodo med sabo neodvisni večrazsežni normalni vektorji z matematičnim upanjem 0 in varianco Σ. Predpostavite, da je vektor ɛ neodvisen od X z Eɛ) = 0 in varɛ) = σ 2 I. Predpostavite, da je Y = Xβ + ɛ. a. Pokažite, da sta običajni cenilki ˆβ in ˆσ 2 iz linearne regresije še vedno nepristranski. b. Privzemite, da je ɛ večrazsežen normalen. Izračunajte var ˆβ i ). Namig: Oglejte si Theorem v K. V. Mardia, J. T. Kent and J. M. Bibby, Multivariate Analysis, Academic Press, c. Privzemite, da je ɛ večrazsežen normalen. Kakšna je porazdelitev cenilke ˆσ 2? 8. Naj bosta θ i ) i 1 in ξ i ) i 1 zaporedji slučajnih vektorjev dimenzij k in l, ki zadoščajo enačbam θ n+1 = a 1,n + A 1,n θ n + B 1,n η 1,n+1 + C 1,n η 2,n+1 ξ n+1 = a 2,n + A 2,n θ n + B 2,n η 1,n+1 + C 2,n η 2,n+1, kjer so a 1,n, a 2,n vektorji dimenzij k in l, A 1,n, A 2,n matrike domenzij k k in l k, B 1,n, B 2,n matrike dimenzij k k and l k, C 1,n in C 2,n matrike dimenzij k l and l l, ter η 1,n and η 2,n i.i.d. zaporedji z porazdelitvama N0, I k ) in N0, I l ), ki sta neodvisni. Privzemite, da je θ 0, ξ 0 ) večrazsežen normalen vektor neodvisen od zaporedij η i,j ) j 1, i = 1, 2,..., tako da je ) ) )) θ0 µ0 Σ11 Σ N, 12. ξ 0 ν 0 Σ 21 Σ 22 4

5 a. Pokažite, da je pogojna porazdelitev θ n in θ n, ξ n+1 ) T in θ n+1, ξ n+1 ) T glede na ξ 1, ξ 2,..., ξ n ) večrazsežna normalna. Porazdelitve ni potrebno eksplicitno opisati. b. Označite µ n = Eθ n ξ 1, ξ 2,..., ξ n ) in γ n = var{θ n ξ 1, ξ 2,..., ξ n }. Vemo, da je µ n najboljša napoved θ n na podlagi ξ 1, ξ 2,..., ξ n. Pokažite, da veljajo naslednje rekurzijske formule, pri čemer vedno privzemite, da lahko vedno obrnete matrike, ki jih je potrebno obrniti. µ n+1 = [a 1,n + A 1,n µ n ] + [B 1,n B T 2,n + C 1,n C T 2,n + A 1,n γ n A T 2,n] [B 2,n B T 2,n + C 2,n C T 2,n + A 2,n γ n A T 2,n] 1 [ξ n+1 a 2,n A 2,n µ n ] γ n+1 = [A 1,n γ n A T 1,n + B 1,n B T 1,n + C 1,n C T 1,n] [B 1,n B T 2,n + C 1,n C T 2,n + A 1,n γ n A T 2,n][B 2,n B T 2,n + C 2,n C T 2,n + A 2,n γ n A T 2,n] 1 [B 1,n B T 2,n + C 1,n C T 2,n + A 1,n γ n A T 2,n] T. Opomba: Te rekurzijske formule so znane kot Kalman-Bucyjev filter. Namigi: i) Če je Z = X, Y)T slučajni vektor, tak da je pogojna porazdelitev Z glede na W večrazsežna normalna s parametri ) )) µ0 Σ11 Σ N, 12. ν 0 Σ 21 Σ 22 Pokažite, da je pogojna porazdelitev Y glede na X, W večrazsežna normalna s parametroma EY X, W) = EY W) + Σ 21 Σ 1 11 X EX W)) var{y X, W} = Σ 22 Σ 21 Σ 1 11 Σ 12. 5

6 ii) Naj bo Eθ n+1 ξ 1, ξ 2,..., ξ n+1 ) = Eθ n+1 ξ 1, ξ 2,..., ξ n ), ξ n+1 ) Uporabite i). c. Zakaj mislite, je uporabljena beseda filter? d. Kako bi simulirali večrazsežne normalne vektorje z danimi parametri? e. Predpostavite, da so vse matrike neodvisne od n. Simulirajte ustrezna zaporedja in ocene µ n za majhne dimenzije, recimo 2. Prikažite razultate z ustreznimi grafi. 9. Pogosto srečamo v statistiki problem manjkajočih opazovanih vrednosti. Obstaja mnogo metod, kako korektno oceniti parametre. Ogledali si bomo poseben primer EM expectation maximization) algoritma, ki je eden od pristopov. a. Prepostavite, da so vaše opazovane vrednosti neodvisni p-razsežni normalni vektorji X 1, X 2,..., X n s parametri µ in Σ. Ocenite parametra po metodi največjega verjetja, če ni manjkajočih podatkov. b. Predpostavite, da nekatere komponente opazovanih vektorjev manjkajo. Prepostavite, da so podatki manjkajo naključno in neodvisno od X 1,..., X n, vendar tako, da nikoli ne manjkajo vse komponente. Označimo z x 1, x 2,..., x n opazovane vrednosti z manjkajočimi podatki). EM algoritem ima dva koraka: i) E-korak: Naj bo l c µ, Σ x 1, x 2,..., x n ) logaritemska funkcija verjetja, če imamo vse podatke. Indeks c pomeni complete. Te funkcije ne moremo izračunati, če kakšen podatek manjka. Kaj storiti? Označimo z y 1, y 2,..., y n dejansko opazovane škrbaste vektorje. Izberimo začeten približek za parametra µ in Σ, recimo µ 0 in Σ 0. Izračunajmo pogojno matematično upanje Qµ, Σ, µ 0, Σ 0 ) = E l c µ, Σ X 1, X 2,..., X n ) ) y 1,..., y n. Pri tem privzemamo, da so X 1, X 2,..., X n porazdeljeni večrazsežno normalno s parametroma µ 0 in Σ 0. 6

7 ii) M-korak: Naslednja približka µ 1 in Σ 1 za neznana parametra dobimo tako, da maksimiziramo funkcijo Qµ, Σ, µ 0, Σ 0 ) po µ in Σ. Koraka E in M potem ponavljamo. Ponovimo E-korak z novimi približki za parameter in pridelamo nove približke z M-korakom. V mnogo primerih glej Dempster, A. P., Laird, N. M., and Rubin, D. B. 1977). Maximum likelihood from incomplete data via the EM algorithm with discussion), Journal of the Royal Statistical Society B, 39, 1-38) zaporedni približki konvergirajo proti neki limiti, ki je potem naša ocena za parametre. Na kratko komentirajte, kaj mislite o tem postopku? Se vam zdi smiseln? Zakaj? c. Opišite, s čim se nadomestijo manjkajoče vrednosti v primeru večrazsežne normalne porazdelitve. Utemeljite vaše izjave. Lahko se omejite na primer p = 2. Kako smiseln se vam zdi zdaj EM algoritem? Na kratko komentirajte. d. Naj bo p = 2. Generirajte vzorec velikosti n = 400. Za vsak k = 1, 2,..., n naj manjka ena od komponent z verjetnostjo 1/10 in sicer manjkajoči podatek izberite naključno z verjetnostjo 1/2. Sprogramirajte EM algoritem in ugotovite ali zaporedni približki res konvergirajo. Primerjajte limitne ocene s tistimi, ki bi jih dobili z metodo največjega verjetja samo na podlagi podatkov, kjer ne manjka nobena komponenta. Komentar? Literatura: Geoffrey J. McLachlan, Thriyambakam Krishnan, The EM Algorithm and Extensions, Wiley Series in Probability and Statistics, Suppose a linear model Y = Xβ + ɛ where ɛ N0, σ 2 I). Write X = [X 1 ; X 2 ] where X 1 are the first p 1 columns of X and X 2 are the last p 2 columns. Similarly split β T = β T 1 ; β T 2 ). a. If X 1X 2 = 0 show that the two subcomponents ˆβ 1 and ˆβ 2 of the BLUE ˆβ are independent. 7

8 b. Find the distribution of U = Y X 1 ˆβ1 ) T Y X 1 ˆβ1 ). 11. Suppose Y = Xβ+ɛ where ɛ N0, σ 2 I). Show that for the internally studentised residuals r i defined as r i = ˆɛ i ˆσ 1 h ii. the expression r 2 i /n p) has the Beta1/2, n p 1)/2) distribution where p = rankx). Hints: i) Recall that the Betap, q) distribution is defined as the distribution of U/U + V ) where U and V are independent, and U Gammap, λ), V Gammaq, λ). ii) Let e i be the n-dimensional vector whose only nonzero component is a 1 in the i th position, and note that ˆɛ i = e T i I H)Y. iii) Define P = I H and P 1 = Pe i e T i P/1 h ii ), and U = Y P 1 Y, V = Y P P 1 )Y. Show that U and V are independent and have Gamma distributions. iv) Show that r 2 i /n p) = U/U + V ) to conclude the proof. 12. Suppose Y = Xβ + ɛ with Eɛ) = 0 and varɛ) = σ 2 I. Assume X is of full rank. To test the hypothesis H 0 : β i = 0 vs. H 1 : β i 0 one has two possibilities: i) Use the t = ˆβ i /ˆσ c ii where c ii is the i-th diagonal element of X T X) 1 and reject H 0 if t t n p 1 α/2) for a given α 0, 1). ii) Test H 0 : Xβ ω vs. H 1 : Xβ RangeX)\ω 8

9 where ω is the subspace spanned by columns of X other than the i-th one and then use the quadratic forms approach based on Cochran s theorem, and reject H 0 if the appropriate F F 1,n p 1 α) for a given α 0, 1). Prove that for a given α the two tests are the same: more precisely, you will need to show that Q 1 Q 0 = ˆβ 2 i /c ii. Hints: i) Prove that the estimate of β i does not change if you replace the i-th column in X by its orthogonal projection onto the orthogonal complement of the space spanned by the other columns while the estimates of other β s will in general change). ii) Express the quadratic forms Q 0 and Q 1 in terms of these new estimates using orthogonality. 13. Assume that the data x 1, x 2,..., x n are an i.i.d. sample from the multivariate normal distribution of the form ) )) µ 1) Σ11 Σ X 1 N µ 2), 12. Σ 21 Σ 22 Assume that the parameters µ and Σ are unknown. Assume the following theorem: If Ap p) is a given symmetric positive definite matrix then the positive definite matrix Σ that maximizes the expression 1 exp 12 detσ) Tr Σ 1 A )) n/2 is the matrix Σ = 1 n A. The testing problem is H 0 : Σ 12 = 0 versus H 1 : Σ a. Find the maximum likelihood estimates of µ and Σ in the unconstrained case. b. Find the maximum likelihood estimates of µ and Σ in the constrained case. 9

10 c. Write the likelihood ratio statistic for the testing problem as explicitly as possible. d. What can you say about the distribution of the likelihood ratio statistic if H 0 is true. e. Simulate by computer the distribution of the test statistics under H 0 in case when the vectors are 2-dimensional. Comment. 14. Raschev model za analizo binarnih podatkov specificira, da velja P X ij = x ij, 1 i m, 1 j n) = i,j e α i δ j )x ij 1 + e α i δ j ) za parametre α = α 1,..., α m ) in δ = δ 1,..., δ n ). a. Na predavanjih smo našli nabor zadostnih statistik. Pokažite, da so te statistike zadostne brez uporabe faktorizacijskega izreka. b. V porazdelitvi spremenjivk X ij se nič ne spremeni, če vsakemu parametru prištejemo isto konstanto. Rečemo, da sta paramtera α in δ nedoločljiva. Ali lahko govorimo o zadostnih statistikah tudi v tem primeru? Utemeljite! c. Naj bo za vse 1 j n x j = m x ij. i=1 Pokažite, da je pogojna porazdelitev {X ij : 1 i m, 1 j n} glede na X 1,..., X n ) neodvisna od parametra δ. d. Ali lahko uporabite ugotovitev v točki c., da ocenite parameter α? Pomislite na metodo največjega verjetja. Ker so parametri nedoločljivi, lahko umetno dodate zahtevo, da je α 1 + +α m = 0. e. Napišite program, ki bo na podatkih v rasch-data.txt ocenil parameter α. 15. Abstraktno lahko formuliramo, da je vektorska) statistika T X) zadostna, če za vsak θ Ω in za vsako omejeno Borelovo funkcijo φ velja E θ φx) T X) ) = Φφ T X) ) 10

11 za neko funkcijo Φ φ, ki ni odvisna od paramtera θ. Predpostavite, da ima X gostoto fx, θ) in da velja fx, θ) = gt x), θ) hx) za neki ustrezni funkciji g in h. Pokazati želimo, da je ta pogoj zadosten za to, da je statistika T X) zadostna. a. Privzemite najprej, da je h gostota neke porazdelitve. Naj bo Y slučajna spremenljivka s to gostoto. Utemeljite, da velja za neko Borelovo funkcijo Φ φ. E φy ) T Y ) ) = Φ φ T Y )) b. Utemeljite, da je za zadostnost dovolj, če pokažemo, da je za vsako omejeno Borelovo funkcijo ψ in za vsak θ Ω c. Utemeljite, da je E θ φx)ψt X)) )) = Eθ Φφ T X))ψT X) ). E θ Φφ T X))ψT X)) = E Φ φ T Y )) ψt Y )) gt Y ), θ) ). Namig: Napišite prvo upanje kot integral in upoštevajte, da je h gostota spremenljivke Y. d. Utemeljite, da je E Φ φ T Y )) ψt Y )) gt Y ), θ) ) = E φy ) ψt Y )) gt Y ), θ) ). e. Pokažite, da je E φy ) ψt Y )) gt Y ), θ) ) = E θ φx) ψt X)) ) in sklepajte, da je T X) zadostna statistika. f. Prevedite primer, ko h ni gostota na primer, ko h je gostota. 16. Eksponentne družine porazdelitev opisujejo gostote glede na neko referenčno mero ν v našem primeru ali Lebesgueovo mero ali mero, ki šteje) r ) fx, θ) = cθ)hx) exp c i θ)t i x). 11 i=1

12 a. Pokažite, da je T X) = T 1 X),..., T r X)) zadostna statistika. b. Privzemite, da je r = 1 in naj bo c 1 θ) = θ za enodimenzionalni parameter θ a, b). Kot znano privzemite, da obstaja od θ neodvisna σ-končna mera ν T na R, da velja P θ T X) A) = cθ)e θt dν T t). Kot znano tudi privzemite, da je funkcija z gt)e zt dν T t) holomorfna na traku Rez) a, b) za vsako funkcijo g, za katero je gt) e zt dν T t) < za vsak θ a, b). Če je za tako funkcijo E θ gt X)) = 0 za vse θ a, b), lahko enakost prepišemo v gt)e zt dν T t) = 0, A iz česar sledi gx) + e zt dν T t) = gx) e zt dν T t). Za fiksen θ 0 a, b) definirajte verjetnostni meri P in Q s predpisom P A) = 1 g + x) e θ0t dν T t) in QA) = 1 g x) e θ0t dν T t) a a kjer je a ustrezna končna konstanta, ki obstaja po predpostavki. Na podlagi holomorfnosti in s pomočjo izreka o edinosti za karakteristične funkcije sklepajte, da sta meri P in Q enaki. c. Na podlagi b. sklepajte, da je g + = g skoraj gotovo glede na ν T, torej je gt X)) = 0 skoraj gotovo glede na ν. e. Posplošite izrek z indukcijo na primer, ko je r > 1 in velja a i < θ i < b i. 12

13 f. Posplošite izrek na primer, ko so funkcije c 1,..., c r splošne, vendar take, da ima zaloga vrednosti funkcije c = c 1,..., c r ), ki slika Ω v R r, neprazno notranjost. g. Preverite, da ta izrek da kompletnost statistik za izbran nabor standardnih porazdelitev Poisson, normalna, gama) Suppose {px, θ), θ Θ R k } is a regular) family of distributions. Define the vector valued score function s as the column vector with components sx, θ) = θ logpx, θ)) = gradlogpx, θ)). and the Fisher information matrix as Iθ) = vars). Remark: If px, θ) = 0 define log px, θ)) = 0. a. Let tx) be an unbiased estimator of θ based on the likelihood function, i.e. E θ tx)) = θ. Prove that Deduce that covs, t) = I. Es) = 0 and Est T ) = I. Remark: Make liberal assumptions about interchanging integration and differentiation. b. Let a, c be two arbitrary k-dimensional vectors. Prove that corr 2 a T t, c T s ) = a T c) 2 a T vart)a c T Iθ)c. The correlation coefficient squared is always less or equal 1. Maximize the expression for the correlation coefficient over c and deduce the Rao-Cramèr inequality. 1 Povzeto po: Mark J. Shervish, Theory of Statistics, Springer, 1996, str

14 18. Naj bodo X 1, X 2,..., X n neodvisni večrazsežni normalni vektorji za enako porazdelitvijo Nµ, I). Poiščite najboljšo nepristransko cenilko za izraz µ T µ + 1 T µ, kjer je 1 T = 1, 1,..., 1). Utemeljite vsak korak. 19. Assume the data pairs y 1, z 1 ),..., y n, z n ) are an i.i.d. sample from the distribution with density for y > 0 and σ > 0. fy, z, θ, σ) = e y 1 e z θy) 2yσ 2 2πyσ a. Find the maximum likelihood estimators of θ and σ 2. Are the estimators unbiased? b. Find the exact standard errors of ˆθ and ˆσ 2. c. Compute the Fisher information matrix. d. Find the standard errors of the maximum likelihood estimators using the Fisher information matrix. Comment on your findings. e. Can you find a sufficient statistic for the parameter θ, σ). Can you use them to improve your unbiased estimators? Can you prove that the two unbiased estimators have the least variance among all unbiased estimators? Compare the variance to the Rao-Cramèr bound. 2 14

Statement: With my signature I confirm that the solutions are the product of my own work. Name: Signature:.

Statement: With my signature I confirm that the solutions are the product of my own work. Name: Signature:. MATHEMATICAL STATISTICS Homework assignment Instructions Please turn in the homework with this cover page. You do not need to edit the solutions. Just make sure the handwriting is legible. You may discuss