Multipla regresija Iztok Grabnar Univerza v Ljubljani, Fakulteta za farmacijo
Učenje/potrjevanje
3
Analiza povezanosti Opazovani pojav= odvisna spremenljivka Napovedni dejavnik= neodvisna spremenljivka Statistični modeli: Univariabilni: en napovedni dejavnik Povezava kot pomembna pokaže: zaradi dejanske povezanosti napovednega dejavnika s pojavom lahko tudi zaradi povezanosti z nekim drugim napovednim dejavnikom. Multivariabilni: več napovednih dejavnikov 4
Regresijska analiza Univariatna, bivariatna, multivariatna analiza Statistična spremenljivka Numerična zvezna Atributivna Dihotomna Linearna regresija Logistična regresija 5
Posplošeni linearni model Generalized Linear Model E( Y ) g ( X ) Povezovalna funkcija Linearni prediktor 0 + x + x +...+ n x n Var( Y ) V ( ) V ( g ( X )) 6
GLM Statistična spremenljivka Porazdelitev Povezovalna funkcija Zvezna Normalna =X Števna Poissonova =exp(x Dihotomna Binomska =exp(xexp(x 7
Grafični prikazi v analizi povezanosti Razsevni diagrami Odgovorne površine 0.6 50 0.5 40 0.4 30 y 0.3 z 0 0 0. 0 0. -0-0 3 0 0 0. 0.4 0.6 0.8. x -30 3 5 x 7 9 3 5 7 7 y 8
Enostavni linearni regresijski model Je enačba, ki opisuje odnos med odvisno (y) in neodvisno (x) spremenljivko in napako (). Enačba enostavnega linearnega regresijskega modela je: y = 0 + x + 0 in sta parametera modela. je napaka N(0, e ) 9
i y i yˆ i y i y ( x, y) ŷ i y x 0 x i X 0
Metoda najmanjših kvadratov miny yˆ i i y i = opažena i-ta vrednost odvisne spremenljivke ^ y i = ocena i-te vrednosti odvisne spremenljivke Johann Carl Friedrich Gauss (777-855)
Koeficient determinacije SST = SSR + SSE y ˆ ˆ i y yi y yi yi SST = celokupna vsota kvadratov SSR = vsota kvadratov regresije SSE = vsota kvadratov napake y yˆ i i y i i r SSR SST r koeficient korelacije y ( x, y) X ŷ i x i y x 0
Ocena e Varianca napake MSE ali s kjer: s = MSE = SSE/(n-) y ˆ ˆ i y yi y yi yi s MSE Standardna napaka ocene 3
Statistično sklepanje Ničelna statistična hipoteza: = 0 Dva pristopa t test F test Pri obeh je potrebna ocena e. 4
t test Hipotezi H 0 : = 0 H a : 0 Testna spremenljivka t /, n b s b s b MSE x i - x 5
Določanje intervala zaupanja b t s /, n b kjer je t s b /, n b t /, n točkovna ocena naklona kritična meja za stopnjo tveganja vrednost iz t-porazdelitve z(n ) stopinjami prostosti 6
F test Hipotezi H 0 : = 0 H a : 0 Testna spremenljivka F,,n- = MSR/MSE 7
Previdnost pri interpretaciji statistične značilnosti Zavrnitev H 0 : = 0 in sklep, da je povezava med spremenljivkama x in y značilna ne dopušča opredelitve povezave v smislu vzrok in posledica. Z zavrnitvijo H 0 : = 0 nismo dokazali, da je odnos med spremenljivkama linearen. 8
Formule L L L xx yy xy x x x i y y y i i i x i xi x yi y xi yi n x n i y i n y i SSE SST SSR L SSR L SSE L xy xx yy L L xy xx SSR MSR k SSE MSE n k MSR Fk, nk, MSE b b 0 r L L xy xx y b x L L xx xy L yy y b i n x i se b se MSE L xx b 0 MSE n L xx x 9
0
Interval zaupanja in interval napovedovanja 5000 4000 3000 000 Porodna masa 000 0 0 30 40 50 Gestacijska starost
Uporaba regresijske enačbe Interval zaupanja ˆ y t n, α/s s MSE n x x xi x Interval napovedovanja ˆ y t n, α/s s MSE n x x xi x 3
Multipli regresijski model y = 0 + x + x +... + p x p + 0,,,..., p so parametri. Standardizirani parametri (x i z i ) je napaka, ki je slučajna spremenljivka. 4
Koeficient determinacije Multipli koeficient determinacije R = SSR/SST Popravljeni multipli koeficient determinacije R a R n n p n = 0 30 na posamezen prediktor (če so prediktorji med sabo korelirani je potreben večji n) 5
Statistično sklepanje Pri enostavni linearni regresiji nas F in t test vodita k istim sklepom. V multipli regresiji uporabimo F in t test za različna namena. 6
F test Pomembnost modela kot celote. Test for overall significance. 7
t test Če je izid F testa za model kot celota značilen, uporabimo t teste za ugotavljanje značilnosti vplivov posameznih neodvisnih spremenljivk. Za vsako neodvisno spremenljivko izvedemo en t test. Vsak t test imenujemo tudi test posamične značilnosti (test for individual significance). 8
F test Hipotezi H 0 : = =... = p = 0 H a : Najmanj eden izmed parametrov ni enak 0 Testna spremenljivka F = MSR/MSE Zavrnitev ničelne hipoteze Zavrni H 0 če F > F kjer je F odklon v F porazdelitvi s p stopinjami prostosti v števcu in (n - p )stopinjami prostosti v imenovalcu ulomka. 9
t test Hipotezi H 0 : i = 0 H a : i 0 Testna spremenljivka t b s i bi Zavrnitev ničelne hipoteze Zavrni H 0, če t > t kjer je t odklon v t porazdelitvi z n - p - stopinjami prostosti. 30
Atributivne spremenljivke Rekodiranje s slepimi spremenljivkami k nivojev osnovne atributivne spremenljivke nadomestimo s (k-) slepimi spremenljivkami 3
Primer: Vpliv kajenja na pljučno funkcijo Z raziskavo želimo opredeliti vpliv kajenja na pljučno funkcijo. Naključno smo izbrali 000 ljudi obeh spolov in spremljali pljučno funkcijo (parameter FEV), poleg tega smo beležili še njihovo starost in telesno višino. Za analizo rezultatov raziskave smo uporabili metodo multiple regresije. Neodvisne spremenljivke v analizi so bile: starost [leta] telesna višina [cm] spol (0 = ženski, = moški) kajenje (0 = nekadilec, = kadilec) Odvisna spremenljivka pa je bila FEV [liter]. 3
Model Model Summary Adjusted Std. Error of R R Square R Square the Estimate.497 a.47.43.569 a. Predictors: (Constant), kajenje, t. višina (cm), starost (leta), spol Model Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 0.786 4 5.96 8.383.000 a 63.533 995.064 84.39 999 a. Predictors: (Constant), kajenje, t. višina (cm), starost (leta), spol b. Dependent Variable: FEV (l) Model (Constant) starost (leta) t. višina (cm) spol kajenje a. Dependent Variable: FEV (l) Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig..666.8.568.000 -.9E-03.00 -.063 -.96.0-5.6E-04.00 -.04 -.844.399.9.07.376 3.08.000 -.75.03 -.37 -.857.000 y = b 0 + b starost + b višina + b 3 spol + b 4 kajenje 33
Primer: Pravastatin Randomizirana klinična raziskava Paralelni načrt (placebo, n=434 in pravastatin, n=438) Meritev LDL pred zdravljenjem in leti po začetku zdravljenja Primarni izid je znižanje vrednosti LDL Jukema JW, Bruschke AV, van Boven AJ, Reiber JH, Bal ET, Zwinderman AH, et al. Effects of lipid lowering by pravastatin on progression and regression of coronary artery disease in symptomatic men with normal to moderately elevated serum cholesterol levels. The Regression Growth Evaluation Statin Study (REGRESS). Circulation 995;9:58-40. 34
Rezultati Placebo: LDL=-0.04±0.59 mmol/l Pravastatin: LDL=.3±0.68 mmol/l =.3-(-0.04)=.7 mmol/l se 0.68 / 438 0.59 / 434 0.043 mmol / L 35
Baseline LDL-cholesterol (mmol/l) 36 LDL-cholesterol decrease (mmol/l)
37
y=b 0 +b x +b x x = (pravastatin), x =0 (placebo) x =baseline Placebo y=b 0 +b x Pravastatin y=b 0 +b +b x.7 b =.7±0.037 Izboljšana natančnost se: 0.043 0.037 38
b=0.36 (se=0.06; p<0.000) 39
Tveganje, obeti ter razmerja Relativno tveganje ang. Relative Risk RR p p Razmerje obetov ang. Odds Ratio p p p p Povezava med razmerjem obetov ter relativnim tveganjem: p p p p p p p p RR p p 40
Preprosta logistična regresija Opazovani pojav= binarna spremenljivka 0/ Kako uporabiti linearni model za opisovanje odnosa? 4
Preprosta logistična regresija Vrednost binarne spremenljivke zapisati kot: Verjetnost, da zavzame vrednost pri danem X: π (x)- populacija p(x)- vzorec Zavzame le vrednosti med 0 in - preozek razpon Razmerje verjetnosti, da dogodek zgodi in da se ne zgodi: p( x) p( x) Zavzame vrednosti med 0 in + neskončnostjo 4
Preprosta logistična regresija Logaritmiranje=> med in + neskončnostjo Populacija: ( x) ln x ( ) logit[ p( x)] p( x) ln p( x) x logit Ocena parametrov iz vzorca: p( x) ln p x ( ) a bx p( x) e abx e abx Verjetnost, da dogodek zgodil pri danem X 43
Pomen regresijskega koef. b Lin. regresija: b y y ( x) ( x) p( x) ln a bx logit p( x) Log. regresija: Binarni X (0/) => x=0, x+=. Obet da bo y=: Logaritmiranje: b O x log it logit x p() p() ( x) log p() ln p() O x 0 it ( x) p(0) p(0) logit x 0 p(0) ln p(0) 44
45 Pomen regresijskega koef. b Log. razmerja obetov: (0) ) ( log log ln it it b RO (0) (0) 0 p p O x () () p p O x (0) (0) () () 0 p p p p O O RO x x (0) log () log (0) (0) () () ln ln it it p p p p RO b RO e
Ocenjevanje b v vzorcu p(x)? =>b in a? ln p( x) a bx logit p( x) Lin. regresija: metoda najmanjših kvadratov ostankov. Log. regresija: metoda največjega verjetja (maximum likelihood method). Funkcija največjega verjetja Oz. logaritem funkcije verjetja ( log likelihood ): Nelinearna funkcija parametrov modela a in b. Iteracijska metoda, več ocen parametrov. Nove ocene, dokler še zveča funkcijo največjega verjetja. Lokalna/globalna točka največjega verjetja. Start? 46
Ocenjevanje b v populaciji Vzorčna porazdelitev b- ja: normalna porazdelitev = > interval zaupanja: b z * SE( b) Vzorčna ocena razmerja obetov: nenormalna, nesimetrična porazdelitev Interval zaupanja za RO iz b (spodnjo/zgornjo mejo): e b z* SE b 47
48 Multipla logistična regresija Matematični model: b(k): sprememba v logitu, ki spremlja spremembo X(k) za enoto, medtem ko se ostale sprem. ne spreminjajo. Regresijski koef. b = logaritem razmerja obetov Razmerje obetov= antilogaritem b: Metoda največjega verjetja k k k k x b x b x b a x b x b x b a e e x p...... ) ( b e
Testiranje pomembnosti modela kot celote Ali se log verjetja modela s spremenljivkami X statistično značilno poveča v primerjavi z log verjetja modela brez njih. G- statistika- test razmerja dveh verjetij: G verjetje ln verjetje SPREM. X Porazdeljuje po hi- kvadrat, df: k k: št. vseh spremenljivk v modelu V SPSS-u: Omnibus test 0 49
Vrednotenje prileganja modela Nagelkerkejev R^ Test hi- kvadrat Hosmer- Lemeshov test: Oba primerjata opazovano število enot, pri katerem se je opazovani dogodek zgodil, s pričakovanim številom, ki temelji na enačbi logistične regresije. 50
Testiranje pomembnosti b Ho: b=0, Ha: b 0 Testi: Z: b 0 z SE b Waldova statistika: b SE b G- statistika: G verjetje ln verjetje x 0 G- statistika: Model, ki vključuje uje X, pove več o Y. 5