LINEARNI MODELI 3 STATISTIČKI PRAKTIKUM 2 4. VJEŽBE
Neke vaijable poticaja mou biti kvalitativne po piodi, pimjeice boja očiju i sl. Takve vaijable poticaja nekad zovemo kateoijske vaijable ili faktoi. Kako se ovakve vaijable poticaja mou uaditi u naše modele? Analiza kovaijance se bavi upavo takvim poblemima dje se pojavljuju kombinacije kvantitativnih i kvalitativnih vaijabli poticaja.
Naša stateija je uaditi kvalitativne vaijable poticaja u model pi čemu ih moamo kodiati. Pimje Y = Xb + ε, Y = pomjena u azini kolesteola x = boj odina kvalitativna vaijabla d = { 0, ne uzima lijek 1, uzima lijek
Ovisno o odnosu vaijable poticaja x i kvalitativne vaijable d biamo jedan od sljedećih lineanih modela: 1. Isti model za obje upe > model1=lm(y~x) Y = β 0 + β 1 x + ε 2. Dva eesijska pavca s istim koeficijentom smjea Y = β 0 + β 1 x + β 2 d + ε > model2=lm(y~x+d) U modelu se javlja fiksan utjecaj lijeka. 3. Različiti pavci za svaku upu Y = β 0 + β 1 x + β 2 d + β 3 x d > model3=lm(y~x*d) ili > model3=lm(y~x+d+x:d) Utjecaj lijeka nije fiksan, već ovisi i o odinama.
U pvom slučaju je teško testiati utjecaj lijeka (imamo dva azličita skupa podataka, svaki odeduje svoj eesijski pavac). Dui model efikasnije iskoištava sve podatke za pocjenu zajedničko koeficijenta smjea (uz pp. fiksno utjecaja lijeka). Teći model uključuje inteakciju izmedu pediktoa.
Inteakcija vs. koelacija - Koelacija - statistička ovisnost jedne vaijable o duoj - Inteakcija - utjecaj jedne vaijable poticaja na zavisnu vaijablu ovisi o duoj vaijabli poticaja Izmedu dvije vaijable poticaja može postojati inteakcija bez obzia na to postoji li izmedu njih koelacija ili ne.
Kolineanost Koelianost izmedu pediktoa - jedna vaijabla može biti lineano pedvidena pomoću ostalih (s odedenom točnošću ). Kolineanost ne utječe na pouzdanost modela u cjelini (baem ne za dani skup podataka), neo na pojedine pediktoe o kojima je iječ (pocijenjeni paameti i p-vijednosti mou se značajno pomijeniti ako napavimo male pomjene u modelu ili podacima). Posljedica je da ne možemo pocijeniti utjecaj pediktoa na zavisnu vaijablu. Maticu koelacija dobivamo na sljedeći način: >summay(model, co=t)
Pimje: Dummy vaijabla s dva stupnja Podaci za ovaj pimje se sastoje od visina x, dužina y i stila adnje style sednjevjekovnih katedala. Neke su omaničko (), a due su otičko () stila. Podaci su upisani u cathedal.txt. Učitajmo podatke: > k=ead.table("cathedal.txt") > k style x y Duham 75 502 Glouceste 68 425 --- WinchesteG 103 530 Salisbuy 84 473
Gafička analiza: > plot(k$x,k$y,type="n",xlab="visina",ylab="duzina") > text(k$x,k$y,as.chaacte(k$s)) Duzina 200 300 400 500 600 50 60 70 80 90 100 Visina
Deskiptivna analiza: > lapply(split(k,k$style),summay) $ style x y :16 Min. : 45.00 Min. :182.0 : 0 1st Qu.: 60.75 1st Qu.:298.8 Median : 73.50 Median :412.0 Mean : 74.94 Mean :397.4 3d Qu.: 86.50 3d Qu.:481.2 Max. :103.00 Max. :611.0 $ style x y :0 Min. :64.00 Min. :344.0 :9 1st Qu.:70.00 1st Qu.:425.0 Median :75.00 Median :502.0 Mean :74.44 Mean :475.4 3d Qu.:80.00 3d Qu.:530.0 Max. :83.00 Max. :551.0
Model: > model = lm(y ~ x * style,k) > summay(model) Call: lm(fomula = y ~ x * style, data = k) Residuals: Min 1Q Median 3Q Max -172.68-30.22 23.75 55.78 89.50 Coefficients: Estimate Std. Eo t value P(> t ) (Intecept) 37.111 85.675 0.433 0.669317 x 4.808 1.112 4.322 0.000301 *** style 204.722 347.207 0.590 0.561733 x:style -1.669 4.641-0.360 0.722657 --- Sinif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standad eo: 79.11 on 21 deees of feedom Multiple R-squaed: 0.5412,Adjusted R-squaed: 0.4757 F-statistic: 8.257 on 3 and 21 DF, p-value: 0.0008072
Kako je kodiana vaijabla style možemo vidjeti iz matice modela X: > model.matix(model) (Intecept) x style x:style Duham 1 75 1 75 Cantebuy 1 80 1 80 --- Old.St.Paul 1 103 0 0 Salisbuy 1 84 0 0
Nactajmo pavce koji pipadaju modelu: > abline(model$coef[-3],col="ed") > abline(model$coef[1]+model$coef[3],model$coef[2]+model$coef[4],col="blue") Duzina 200 300 400 500 600 50 60 70 80 90 100 Visina
Kako je koeficijent uz x:style malen i nije značajan, model se može pojednostavniti. > model1=lm(y~x+style,k) > summay(model1) Call: lm(fomula = y ~ x + style, data = k) Residuals: Min 1Q Median 3Q Max -172.67-30.44 20.38 55.02 96.50 Coefficients: Estimate Std. Eo t value P(> t ) (Intecept) 44.298 81.648 0.543 0.5929 x 4.712 1.058 4.452 0.0002 *** style 80.393 32.306 2.488 0.0209 * --- Sinif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standad eo: 77.53 on 22 deees of feedom Multiple R-squaed: 0.5384,Adjusted R-squaed: 0.4964 F-statistic: 12.83 on 2 and 22 DF, p-value: 0.0002028
Uspoedba dvaju modela pokazuje opavdanost naše petpostavke. > anova(model1,model) Analysis of Vaiance Table Model 1: y ~ x + style Model 2: y ~ x + style + x:style Res.Df RSS Df Sum of Sq F P(>F) 1 22 132223 2 21 131413 1 810 0.1294 0.7227
Nactajmo sada dva pavca koji pipadaju ovim podacima. > abline(1$coef[-3]) > abline(1$coef[1]+1$coef[3],1$coef[2],lty=2) Duzina 200 300 400 500 600 50 60 70 80 90 100 Visina Zaključak: za istu visinu Romaničke su katedale duže 80.39 feet-a i za svako povećanje za 1 foot, oba tipa katedale će biti oko 4.7 feet-a duže.
Gotičke katedale su uzete za efeentne je slovo se nalazi isped u abecedi. Slovo možemo napaviti efeentnim. > k$style = elevel(k$sty,ef="") > model1=lm(y~x+style,k) > summay(model1) Call: lm(fomula = y ~ x + style, data = k) Residuals: Min 1Q Median 3Q Max -172.67-30.44 20.38 55.02 96.50 Coefficients: Estimate Std. Eo t value P(> t ) (Intecept) 124.690 82.922 1.504 0.1469 x 4.712 1.058 4.452 0.0002 *** style -80.393 32.306-2.488 0.0209 * --- Sinif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standad eo: 77.53 on 22 deees of feedom Multiple R-squaed: 0.5384,Adjusted R-squaed: 0.4964 F-statistic: 12.83 on 2 and 22 DF, p-value: 0.0002028
Kodianje kvalitativnih vaijabli Kodianje dvostupanjskih faktoa nije jedinstveno, a još više je načina za kodianje višestupanjskih faktoa. Za fakto koji ima k azina, potebna nam je k 1 umjetna vaijabla za epezentaciju. Jedan paameta se koisti da bi se ocjenio sednji efekt ili možda efekt neko efeentno nivoa i k 1 vaijabla nam je potebna kako bi pokili peostale slučajeve. Postoje azne metode kodianja, a mi ćemo se pozabaviti tetiajućim kodianjem.
Tetiajuće kodianje Fakto koji ima 4 azine bit će kodian sa 3 umjetne vaijable nivoi Umjetne vaijable 1 2 3 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 Ovakav način pvi nivo tetia kao standadni/efeentni, a ostale uspoeduje u odnosu na njea. Ovo je standadni način kodianja umjetnih vaijabli u R-u.
Zadatak U datoteci twins.txt nalaze se podaci o ezultatima IQ testianja za jednojajčane blizance. Jedno blizanca su odajali stvani oditelji, a duo usvojitelji. Dostupni su i podaci o socijalnoj skupini kojoj pipadaju stvani oditelji. (i) Gafički uspoedite IQ posvojeno i IQ blizanca koji odastao s biološkim oditeljima, pi tome naznačite socijalnu skupinu oditelja. (ii) Analiziajte ovisnost IQ posvojeno blizanca o IQ-u blizanca koji odastao s biološkim oditeljima i socijalnom statusu oditelja. Izabeite najbolji model. (iii) Testiajte azlikuje li se IQ blizanaca?