PEARSONOV r koeficijent korelacije U prošlim vježbama obradili smo Spearmanov Ro koeficijent korelacije, a sada nas čeka Pearsonov koeficijent korelacije ili Produkt-moment koeficijent korelacije. To je najpoznatiji i najčešće korišteni koeficijent, a označava se s r. No, on ima određena ograničenja, a to su da se smije računati samo kod: - linearne povezanosti - simetričnih raspodjela - kada nema ekstremnih rezultata (povezano je s prethodnim uvjetom), jer mu to može čak promijeniti predznak - rezultati moraju biti izraženi barem na intervalnoj mjernoj skali. Formula za r je sljedeća: r NΣXY -( ΣX)( ΣY) [ NΣX -( ΣX) ] NΣY -( ΣY) [ ] Kao i kod ro koeficijenta korelacije, potrebno je nakon računa za rang korelaciju, odrediti je li ta povezanost statistički značajna ili nije, i to na sljedeći način: t r N - 1- r Broj stupnjeva slobode je df N-. Kada izračunamo t, uspoređujemo ga s graničnim vrijednostima uz dobivene stupnjeve slobode u tablici za t-test. ZADACI 1) Računajući r korelaciju utvrdite postoji li povezanost između težine (kg) i dobi djece (u mjesecima) smještene na jednom odjelu: Pacijent 1.. 3. 4. 5... 8. 9. Težina 9 8 9 10 10 11 5 Dob 8 8 10 10 11 8 9 1
Kao što u formuli vidimo, potrebno je izraziti sume rezultata u varijabli x (težina) i varijabli y (dob). Osim toga, potrebno je pomnožiti x i y rezultat za svakog ispitanika, te zbrojiti te pojedinačne umnoške, te također kvadrirati svaki pojedinačni rezultat, i izračunati sume kvadriranih x i kvadriranih y. Ovako to izgleda posloženo u tablicu: X Y Pacijent Težina Dob XY X Y 1. 9 8 81 4. 8 5 49 4 3. 8 5 4 49 4. 9 10 90 81 100 5. 10 10 100 100 100. 10 11 110 100 11. 8 48 3 4 8. 11 9 99 11 81 9. 5 30 5 3 Σ 5 1 5 9 r. 5949-55 [ 5913-55][ 111-599] [ ] [ 9 5-5 ][ 9 9- ] 14 88 18 9 1-5 14 541 14 8.94 0. 9 - t 0. 1-0. 0. 1-0,5 0, 0,44 0. 1,5 3.09. r 0. Dobiveni t 3.09 df N- Granični t (5%).3 Granični t (1%) 3.50 P<0.05 Korelacija između dobi i težine djece pozitivna je, visoka i statistički značajna uz rizik manji od 5%: što su djeca starija, to su i teža.
) Računajući Pearsonov koeficijent korelacije utvrdite postoji li povezanost između duljine rješavanja zadataka iz matematike (u minutama) i broja bodova na kontrolnom ispitu: Učenik 1.. 3. 4. 5... 8. 9. Duljina 18 0 1 10 19 0 8 1 1 Bodovi 11 15 13 10 8 15 10 1 3) Računajući r korelaciju utvrdite postoji li povezanost između broja bodova dobivenih na tečaju higijenskog minimuma (X) i ocjene higijene objekta (Y) na skali od 1 do, kod 8 polaznika. Polaznik 1.. 3. 4. 5... 8. Bodovi 10 8 0 15 1 1 9 3 Higijena 3 1 4 5 3 4) Računajući Pearsonov koeficijent korelacije r utvrdite postoji li povezanost između količine alkohola u krvi (izražene u g/kg) i vremena reakcije (u sekundama) vozača: Ispitanik 1.. 3. 4. 5... 8. 9. 10. Alkohol u krvi Vrijeme reakcije 0. 0.4 0.8 1.0 1.5 0.1 0. 0.1 0.9 1. 0.8 1..0 3.0 3.0 0.9 0.4 0.5 1.0.0 5) Medicinsku sestru jednog odjela zanimalo je kolika je povezanost između razine željeza u krvi i tzv. lošeg kolesterola (mmol/l) za 10 pacijentica. Izračunajte koeficijent korelacije r. Pacijent 1.. 3. 4. 5... 8. 9. 10. Željezo 5 10 1 8 9 5 3 1 11 3 Ldl kolesterol 3.1 3.0 3.0 3..8 4.0.4 4.5 3.8.9 ) Izračunajte Pearsonov koeficijent korelacije između gubitka krvi u dl (X), i osjećaja žeđi izraženog na skali od 1 d0 10 (Y) za 8 pacijenata. Pacijent 1.. 3. 4. 5... 8. Gubitak krvi 3.0 4.5 3.5 4.0 3.0 4.5 4.0 5.0 Osjećaj žeđi 4 5 3 8 3
RJEŠENJA ) Računajući r korelaciju utvrdite postoji li povezanost između duljine rješavanja zadataka iz matematike (u minutama) i broja bodova na kontrolnom ispitu: X Y Učenik Duljina Bodovi XY X Y 1. 18 108 34 3. 0 11 0 400 11 3. 1 15 40 5 5 4. 10 13 130 100 19 5. 19 10 190 31 100. 0 8 10 400 4. 8 15 10 4 5 8. 1 10 10 89 100 9. 1 1 144 144 144 Σ 140 100 148 338 1184 r 13338-14000 [ 104-1900][ 105-10000] [ ] [ 9 338-140 ][ 9 1184-100 ] 144 5 9 148-140 100 94595 9. 0.8 9 - t 0.8 1-0.8 0.8 1-0,44 0,8 0,53 0.8 13,008.45. r -0.8 Dobiveni t.45 df N- Granični t (5%).3 Granični t (1%) 3.50 P<0.05 Korelacija je negativna, umjereno visoka i značajna uz rizik manji od 5%: što učenici brže riješe ispit, to je broj postignutih bodova veći. 4
3) Računajući r korelaciju utvrdite postoji li povezanost između broja bodova dobivenih na tečaju higijenskog minimuma (X) i ocjene higijene objekta (Y) na skali od 1 do, kod 8 polaznika. Polaznik X Bodovi na Y Higijena objekta XY X Y tečaju 1. 10 3 30 100 9. 8 1 8 4 1 3. 0 4 80 400 1 4. 15 5 5 5 5 5. 1 34 89 4. 1 144 3. 9 54 81 3 8. 3 3 9 9 9 Σ 94 30 3 131 13 r 89-80 [ 1049-883][ 1088-900] [ ] [ 8 131-94 ][ 8 13-30 ] 10 188 8 3-94 30 31080 558.4 0.13 8 - t 0.14 1-0.14 0.14 1-0,019 0,14 0,9804 0.14,1199 0.34. r 0.13 Dobiveni t 0.34 df N- Granični t (5%).45 Granični t (1%) 3.1 P>0.05 Dobiveni koeficijent korelacije pozitivan je, nizak, i statistički nije značajan: postignuti bodovi na tečaju i higijena objekta koji polaznik vodi nisu povezani. 5
4) Računajući Pearsonov koeficijent korelacije r utvrdite postoji li povezanost između količine alkohola u krvi (izražene u g/kg) i vremena reakcije (u sekundama) vozača: X Y Ispitanik alkohol u krvi vrijeme reakcije X Y XY 1. 0, 0,8 0.04 0.4 0.1. 0,4 1, 0.1 1.44 0.48 3. 0,8 0.4 4.00 1.0 4. 1,0 3 1.00 9.00 3.00 5. 1,5 3.5 9.00 4.50. 0,1 0,9 0.01 0.81 0.09. 0, 0,4 0.3 0.1 0.4 8. 0,1 0,5 0.01 0.5 0.05 9. 0,9 1 0.81 1.00 0.90 10. 1, 1.44 4.00.40 Σ.8 14.8. 30.30 13.4 r 134. 100.4 (. 4.4)( 303 19.04) [ ] [ 10.-.8 ][ 10 30.3-14.8 ] 33.5 0.9 83.9 10 13.4-.8 14.8 33.5 159.8 33.5 41.949 0.8 N - 10- t r 0.8 1- r 1-0.8 0.8 8 0.3.88 0.8 0. 3. r 0.8 Dobiveni t 3. df N-8 Granični t (5%).31 Granični t (1%) 3.3 P<0.01 Povezanost između količine alkohola u krvi i vremena reakcije pozitivna je, visoka i statistički značajna uz rizik manji od 1%: što više alkohola u krvi, to je više vremena potrebno za reakciju.
5) Medicinsku sestru jednog odjela zanimalo je kolika je povezanost između razine željeza u krvi i tzv. lošeg kolesterola (mmol/l) za 10 pacijentica. Izračunajte koeficijent korelacije r. X Y Pacijent Željezo Ldl kolesterol XY X Y 1. 5 3.1 15.5 5 9.1. 10 3.0 30.0 100 9.00 3. 1 3.0 3.0 144 9.00 4. 8 3. 5. 4 10.4 5. 9.8 5. 81.84. 5 4.0 100.0 5 1.00. 3.4. 9 5. 8. 1 4.5.0 5 0.5 9. 11 3.8 41.8 11 14.44 10. 3.9 9.8 104 8.41 Σ 131 3. 44.1 449 110.55 r [ ] [ 10 449-131 ][ 10 110.55-3. ] 441 483. ( 4490 111)( 1105.5 109.9) 10 44.1-131 3. 1.3 39 3.1 1.3 5383.09 1.3 515.15 0.34 t 0.34 8 1-0.115 0.34 8 0.8844 0.34 9.045 0.34 3.00 1.0 r 0.34 Dobiveni t 1.0 df N- 8 Granični t (5%).31 Granični t (1%) 3.3 P>0.05 Utvrđena pozitivna povezanost između željeza i ldl kolesterola u krvi lagana je, pozitivna i statistički nije značajna: na temelju podatka o željezu u krvi, ne možemo prognozirati razinu ldl kolesterola.
) Izračunajte Pearsonov koeficijent korelacije između gubitka krvi u dl (X), i osjećaja žeđi izraženog na skali od 1 d0 10 (Y) za 8 pacijenata. X Y Pacijent Gubitak krvi Osjećaj žeđi XY X Y 1. 3.0 4 1 9 1. 4.5 31.5 0.5 49 3. 3.5 5 1.5 1.5 5 4. 4.0 3 1 1 9 5. 3.0 9 4. 4.5 8 3 0.5 4. 4.0 8 1 49 8. 5.0 30 5 3 Σ 31.5 4 13 1.5 5 r 1384 133 ( 10 99.5)( 01 14) [ ] [ 8 1.5-31.5 ][ 8 5-4 ] 1 9.5 5 8 13-31.5 4 1 49 1 8.58 0.0 t 0. 1-0.49 0. 0.51 0. 11.5 0. 3.43.4. r 0.0 t.4 df Granični t (5%).45 Granični t (1%) 3.1 P>0.05 Korelacija između gubitka krvi i osjećaja žeđi pozitivna je, možemo reći da je visoka, ali nije statistički značajna. Ne treba zanemariti činjenicu da je naš dobiveni t vrlo blizak graničnom uz 5% rizika, pa bi se ova korelacija da je dobivena na nešto većem uzorku, pokazala značajnom. 8
PONOVIMO: Pearsonov koeficijent korelacije r najčešće je korišten koeficijent korelacije. Ograničenja pri upotrebi Pearsonovog koeficijenta korelacije su da nije pogodan za nelinearnu povezanost, kao ni za nesimetričnu raspodjelu rezultata, te da rezultati moraju biti izraženi minimalno na intervalnoj mjernoj skali. LITERATURA: 1. Howell, D.C. (1989) Fundamental Statistics for the Behavioral Sciences. Boston: PWS-Kent.. Petz, B. (199) Osnovne statističke metode za nematematičare. Jastrebarsko: Naklada "Slap". 3. http://www.surveysystem.com/correlation.htm preuzeto 15.0.010. 4. http://www.statsoft.com/textbook/basic-statistics/ preuzeto 15.0.010. NAPOMENE: Svi podaci u ovim zadacima izmišljeni su za potrebe vježbi studenata i ne predstavljaju stvarno stanje u navedenim populacijama. U zadacima točni rezultati mogu biti i oni koji donekle odstupaju od navedenih rezultata, uslijed rada s drukčijim brojem decimalnih vrijednosti. Zadnja promjena 5.10.01. 9