Harun Kuč : Statistika u Excelu Izdavač : Weling SD Zenica Za izdavača : Damir Bajramović Recenzenti : Dr. Hasan Zolić Dr. Dževad Zečić Lektor : Lejla Kuč Naslovna strana : Mustafa Ganović Štamparija : Weling SD Zenica Za štampariju : Damir Bajramović Tiraž: 1000 primjeraka CIP-Katalogizacija u publikaciji Nacionalna i univerzitetska biblioteka Bosne i Hercegovine, Sarajevo 311 : 004.4] (035) 004.4 : 311] (035) KUČ, Harun Statistika u Excelu / Harun Kuč. - Zenica : Weling, 001. - 411 str. : ilustr. ; 30cm Bibliografija: str. 411 ISBN 9958-9670 - - COBISS/BiH-ID 9954566 Mišljenjem Federalnog ministarstva obrazovanja, nauke, kulture i sporta, broj: 03-15-605/01 od 04.10.001. godine na osnovu člana 19. tačka 10. Zakona o porezu na promet proizvoda i usluga ("Službene novine Federacije BiH", br. 6/95, 5/97, 13/00, 36/00, 54/00 i /01) ovaj proizvod je oslobođen plaćanja poreza na promet proizvoda.
SADRŽAJ Strana Predgovor... 7 Mjere centralne tendencije... 8 Aritmetička sredina... 9 Geometrijska sredina...13 Harmonijska sredina...0 Medijana...6 Modus... 31 Mjere disperzije... 34 Razmak varijacije...35 Interkvartilna razlika...37 Srednje apsolutno odstupanje...4 Varijansa i standardna devijacija...45 Momenti, mjere asimetrije i spljoštenosti... 51 Momenti...5 Koeficijent asimetrije...53 Koeficijent spljoštenosti...54 Kombinatorika... 65 Permutacije...66 o Permutacije bez ponavljanja...66 o Permutacije sa ponavljanjem...66 Varijacije...70 o Varijacije bez ponavljanja...70 o Varijacije sa ponavljanjem...70 Kombinacije...71 o Kombinacije bez ponavljanja...71 o Kombinacije sa ponavljanjem...71 Diskretne ili prekidne raspodjele vjerovatnoća... 7 Binomna raspodjela...73 Geometrijska raspodjela...85 Poissonova raspodjela...87 Hipergeometrijska raspodjela...91
Neprekidne raspodjele vjerovatnoća... 96 Eksponencijalna raspodjela... 97 Laplasova raspodjela... 99 Log-normalna raspodjela...101 Normalna raspodjela...103 F raspodjela...119 Gamma raspodjela...17 χ raspodjela...134 Studentova ili t raspodjela...145 Košijeva raspodjela...148 Vejbulova raspodjela...151 Rejlijeva raspodjela...153 Beta raspodjela...155 Testiranje hipoteza... 16 Testiranje hipoteze o aritmetičkoj sredini osnovnog skupa µ, na velikim uzorcima...163 Vjerovatnoća u testiranju hipoteza...170 Testiranje hipoteze o aritmetičkoj sredini osnovnog skupa µ, na malim uzorcima...171 Testiranje razlike aritmetičkih sredina malih nezavisnih uzoraka...175 Testiranje proporcije...177 Testiranje razlike proporcije...179 Testiranje varijanse osnovnog skupa...181 Intervali povjerenja... 185 Intervali povjerenja za aritmetičku sredinu osnovnog skupa µ, na velikim uzorcima...186 Intervalna ocjena za aritmetičku sredinu osnovnog skupa µ, na malim uzorcima...191 Ocjena za p u binomnoj raspodjeli...193 Interval povjerenja za razliku aritmetičkih sredina (µ1-µ) dvaju osnovnih skupova, na velikim uzorcima...194 Interval povjerenja za razliku aritmetičkih sredina (µ 1-µ ) dvaju osnovnih skupova, na malim nezavisnim uzorcima...195 Interval povjerenja za razliku proporcija p 1-p...196 Interval povjerenja za varijansu (σ )...198 Regresija i korelacija... 00 Metod najmanjih kvadrata...01 Standardna greška regresije...19
Interval povjerenja za y...4 Koeficijent linearne korelacije...5 Testovi o koeficijentu korelacije...8 Koeficijent determinacije...3 Indeks krivolinijske korelacije...34 Višestruka regresija...40 o Testiranje značajnosti koeficijenata višestruke regresije...50 o Intervali povjerenja za koeficijente regresije...53 Trendovi... 54 Linearni trend...55 Potencijalni trend...6 Eksponencijalni trend...64 Hiperbolni trend...68 Logaritamski trend...69 Parabolični trend...70 Trend y = ax +bx+c...7 Trend y = 1/(ax +bx+c)...74 Trend y = x/(ax +bx+c)...76 Provjera hipoteze o postojanju trenda...78 Neparametarska statistika... 80 Test predznaka...81 Test sume rangova...84 Izračunavanje rang korelacije...85 Alati za analizu... 88 Analiza varijanse...89 o Analiza jednog faktora (Anova: Single Factor)...89 o Analiza dva faktora...303 Anova: Two Factor Without Replication...303 Anova: Two Factor With Replication...306 Alat za analizu korelacije (Correlation)...310 o Parcijalna korelacija...31 Alat za analizu kovarijanse (Covariance)...313 Opisna statistika (Descriptive Statistics)...316 Eksponencijalne srednje vrijednosti dinamičke serije (Exponential Smoothing)...30 Alat za analizu F- Test: Dva uzorka za varijanse (F- Test: Two Sample for Variances)...3 Alat Fourier Analysis ( Fourierova analiza)...37
Histogram...39 Pokretna ili mobilna sredina...334 o Pokretna nevezana sredina...334 o Pokretna vezana sredina (Moving Average)...335 Alat za analizu generisanje slučalnog broja (Random Number Generation )...341 Alat za analizu rang i procenat (Rank and Percentile)...347 Alat za analizu Regression (regresija)...351 Alat za analizu Sampling ( uzorkovanje)...360 Testiranje uparenih razlika kod zavisnih uzoraka (t - Test: Paired Two Sample for Means)...363 Alat za analizu razlike aritmetičkih sredina pod pretpostavkom jednakih varijansi (t - Test: Two - Sample Assuming Equal Variances)...368 Alat za analizu razlike aritmetičkih sredina pod pretpostavkom različitih varijansi (t - Test: Two - Sample Assuming Unequal Variances)...37 Alat za testiranje razlike aritmetičkih sredina kod nezavisnih uzoraka...376 Alat za testiranje razlike aritmetičkih sredina velikih nezavisnih uzoraka (z - Test: Two Sample for Means)...376 Tablice... 38 Poissonov zakon vjerovatnoće...383 Binomni zakon vjerovatnoće...385 Normalni zakon vjerovatnoće - funkcija gustine...387 Normalni zakon vjerovatnoće - funkcija rasporeda...388 F - raspored 0,1...389 F - raspored 0,005...391 F - raspored 0,01...39 F - raspored 0,05...393 F - raspored 0,05...394 F - raspored 0,90...395 F - raspored 0,95...396 F - raspored 0,975...397 F - raspored 0,99...398 F - raspored 0,995...399 Vrijednosti Gamma funkcije...400 Studentov t raspored...404 χ raspored...407 Kritična vrijednost Pearsonovog koeficijenta korelacije...410 Literatura... 411
Knjiga Statistika u Excelu predstavlja realizaciju ideje prikaza klasičnog statističkog sadržaja kroz prizmu izvanrednih mogućnosti proračunske tablice Excel. Pored funkcija koje se nalaze u funkcijskoj kategoriji "Statistical" dat je osvrt i na niz drugih funkcija, izuzetno korisnih za različita statistička izračunavanja; takođe, detaljno su pojašnjeni svi ugrađeni alati za analizu podataka. Knjiga "Statistika u Excel-u" koncipirana je tako da se u tretiranim cjelinama daju i dodatna pojašnjenja o korištenim funkcijama, odnosno korištenim alatima za analizu podataka. Poznato je da su funkcije ugrađene formule koje izvode složene matematičke operacije za čije izračunavanje je potrebno pravilno unijeti naziv funkcije i argumente, koji predstavljaju dodatne informacije koje određena funkcija zahtijeva. Najlakši način da se koristi funkcija u nekoj formuli sastoji se u otvaranju okvira za dijalog Paste Function i okvira za dijalog Formula Palette. Nakon odabira ćelije u kojoj želimo da se pojavi rezultat formule i otvaranja dijaloga Paste Function potrebno je odabrati funkcijsku kategoriju iz koje odabiremo željenu funkciju. Ako nismo sigurni kojoj kategoriji funkcija pripada potrebno je izabrati kategoriju All u kojoj su sve funkcije poredane po abecedi. Nakon odabira funkcije, otvara se dijalog Formula Palette koji nam pomaže da se dovrši funkcija dodavanjem potrebnih argumenata; na ovaj način funkcija je upisana, a formula dovršena. Statistički paket za analizu pod imenom Data Analysis nalazi se u padajućem izborniku Tools. Za aktiviranje ovog statističkog alata potrebno je uključiti odgovarajuće kvadratiće, nakon čega se u dnu pojavljuje opcija Data Analysis. Knjiga Statistika u Excelu namijenjena je korisnicima koji imaju potrebu da ubrzaju razna statistička izračunavanja i da pri tome isključe mogućnost računske greške, koja je u ranijim ručnim ili obradama pomoću digitrona bila dosta česta. Dakle, podrazumijeva se da Dugme Help Opis argumenta korisnici računara posjeduju osnovna znanja o proračunskoj tablici, odnosno posjeduju određena računarska znanja i imaju potrebu da skrate vrijeme obrade statističkih podataka, obezbijede aktuelnost dobijenih rezultata i tačnost u radu. Ova knjiga namijenjena je fakultetima koji u svojim planovima imaju potrebu da edukaciju studenata prilagode savremenim edukativnim procesima. Kako je rad na ovakvim projektima, rad uz ogroman broj mogućih kombinacija, svjestan mogućnosti daljneg poboljšanja, svaku dobronamjernu sugestiju primit ću sa iskrenom zahvalnošću. Autor 7
Mjere centralne tendencije Strana Aritmetička sredina... 9 Geometrijska sredina... 13 Harmonijska sredina... 0 Medijana... 6 Modus... 31 8
Aritmetička sredina prosta aritmetička sredina Aritmertička sredina se izračunava tako da se zbir svih vrijednosti obilježja podijeli njihovim brojem. Formula za prostu aritmetičku sredinu glasi: x x = 1 + x + x n 3 +... + x Simboli imaju sljedeće značenje: x = prosta aritmetička sredina, n = ukupan broj članova niza a x 1, x, x 3,, x n su članovi niza. Ova srednja vrijednost ili prosjek ima najširu upotrebu u statističkoj analizi. U proračunskoj tablici Excel postoji ugrađena funkcija koja odgovara formuli za prostu aritmetičku sredinu pod nazivom AVERAGE. Sintaksa ove funkcije je: AVERAGE (number1;number;...) Number1, number,... su 1 do 30 brojčanih argumenata za koje se želi izračunati srednja vrijednost. Pri korištenju ove funkcije treba imati na umu, sljedeće: Argumenti moraju biti ili brojevi ili nazivi, polja, odnosno reference koje sadrže brojeve. Ako argument koji je polje ili referenca sadrži tekst, logičke vrijednosti, ili prazne ćelije, te se vrijednosti zanemaruju; međutim, ćelije s vrijednošću nula su uključene. Primjer 1. Starost pojedinih nastavnika u jednoj školi je: 5, 6, 9, 3, 34 i 37 godina. Kolika je njihova prosječna starost? Rješenje Upotrebom formule za prostu aritmetičku sredinu izračunavamo: 5 + 6 + 9 + 3 + 34 + 37 x = = 30,5 6 Do rezultata koji odgovara prostoj aritmetičkoj sredini, odnosno prosječnoj starosti nastavnika, u proračunskoj tablici Excel dolazimo veoma jednostavno. Pretpostavimo da se podaci o starosti nastavnika nalaze u polju A1:A6 kao na slici 1. Posredstvom funkcije AVERAGE do rezultata dolazimo prema sljedećim sintaksama: n = 1 n n = i 1 x i Slika 1. 9
Primjer. Uočene su brzine kretanja deset slučajno odabranih automobila: Ocijeniti srednju brzinu kretanja automobila. Rješenje Aritmetička sredina predstavlja ocjenu srednje brzine kretanja automobila. Prema obrascu za prostu aritmetičku sredinu, imamo: 86 + 91 + 104 + 109 + 68 + 67 + 53 + 111 + 71 + 74 km x = = 83,4 10 h Na slici. je ilustrirano, kako se to može uraditi u Excelu. Slika. Primjer 3. Na slici 3. u polju A1:C10 date su ocjene iz fizike u jednom razredu od 30 učenika. Kolika je aritmetička sredina ili prosječna ocjena učenika dotičnog razreda? Rješenje:,8 (slika 3.). 1 + + 4 + 3 +... + 3 + 3 + 3 x = =,8 30 Slika 3. 10
Možemo napisati: EXPONDIST( x; λ; TRUE) = x x λ e λ t dt 1 -EXPONDIST(x; λ; TRUE) = 1 x x λ e λ t dt 1 -EXPONDIST(x; λ; TRUE) = x λ e λ t dt = x λ e λ t dt Primjer. Izračunati površinu ispod Laplasove funkcije gustine za vrijednost parametra λ =1, na sljedećim intervalima: (- ; -1,5], [-1,5 ; 1,5] i [1,5; ). Rješenje Površina ispod L aplasove funkcije gustine u intervalima (- ; -1,5] i [1,5; ) iznosi: 1- EXPONDIST(1,5; 1; TRUE) 1,5 λ = e λ t λ dt = e λ t dt = 0,11156508 Površina na slici. ispod L aplasove funkcije gustine u intervalu [-1,5 ; 1,5], iznosi: 0,777. 1,5 Slika. 100
Lognormalna raspodjela Pretpostavimo da slučajna varijabla Y ima normalnu raspodjelu, odnosno Y~N(µ;σ ) i da se podvrgava eksponencijalnoj transformaciji to jest X = EXP(Y), to nam pokazuje da je X kontinuirana slučajna varijabla sa funkcijom gustine vjerovatnoće koja glasi: 0, za x 0 f(x) = 1 lnx µ 1 σ e za x > 0. x σ π Raspodjela vjerovatnoća prema ovom izrazu, zove se lognormalna raspodjela s parametrima µ i σ. Možemo napisati: X~LN(µ;σ ). Osnovni parametri lognormalne raspodjele dati su izrazima: µ+ σ E(X) e µ+σ σ =, V(X) = e (e 1). U proračunskoj tablici Excel postoje ugrađene funkcije LOGNORMDIST i LOGINV, koje se odnose na izračunavanja vezana za lognormalnu raspodjelu. Njihove sintakse su: LOGNORMDIST(x;mean;standard_dev) X je vrijednost za koju se posmatra funkcija. Mean je srednja vrijednost od ln(x). Standard_dev je standardna devijacija od ln(x). Ova funkcija izračunava kumulativnu normalnu logaritamsku raspodjelu od x, gdje je ln(x) normalno raspodijeljen po parametrima srednje vrijednosti i standardne devijacije. Pri korištenju ove funkcije treba znati: Ako neki argument nije broj, LOGNORMDIST postavlja vrijednost greške #NAME?. Ako je x 0 ili standard_dev 0, LOGNORMDIST postavlja vrijednost greške #NUM!. Jednačina za kumulativnu normalnu logaritamsku raspodjelu je: ln(x) µ LOGNORMDIST(x;µ; σ) = NORMSDIST σ LOGINV(probability;mean;standard_dev) Probability (p) je vjerovatnoća pridružena logaritamskoj normalnoj raspodjeli. Mean (µ) je srednja vrijednost od ln(x). Standard_dev (σ) je standardna devijacija od ln(x). Ova funkcija izračunava inverznu funkciju kumulativne funkcije logaritamske normalne raspodjele od x, gdje se za normalnu raspodjelu ln(x) koriste parametri mean i standard_dev. Ako je: p = LOGNORMDIST(x,...), tada je: LOGINV(p,...) = x. Logaritamsku normalnu raspodjelu treba koristiti za analiziranje logaritamski transformisanih podataka. Inverzna funkcija od funkcije logaritamske normalne raspodjele je: LOGNINV(probability = p;mean = µ ;standard_dev = σ) = e µ+σ NORMSINV(p) Pri korištenju ove funkcije treba imati na umu: Ako bilo koji argument nije brojčani podatak, LOGINV postavlja vrijednost greške #NAME?. 101
Ako je probability < 0 ili probability > 1, LOGINV postavlja vrijednost greške #NUM!. Ako je standard_dev 0, LOGINV postavlja vrijednost greške #NUM!. Primjer 1. Slika 1. 1,180977 = LOGINV(0,51974;0,3;0,) Primjer. Slika. 10
Normalna raspodjela Za neprekidnu slučajnu promjenljivu x, koja može uzimati sve vrijednosti iz intervala (- ; ) kažemo da ima normalnu raspodjelu ako je njen zakon vjerovatnoće oblika: f(x) = σ (x x) 1 e σ π Lako je uočljivo da se radi o parnoj funkciji u odnosu na srednju vrijednost x, te da je ista pozitivna u cijelom domenu x (-, ); funkcija gustine f(x) je simetrična u odnosu na srednju vrijednost x, a x - osa predstavlja asimptotu za funkciju f(x) kada x ±. Izraz: σ π predstavlja maksimalnu vrijednost funkcije gustine normalne raspodjele vjerovatnoća u modalnoj tački x = x (srednja vrijednost (na engleskom- mean)). Prevojne tačke funkcije f(x) su: x = x ± σ. Razdaljina između srednje vrijednosti i prevojne tačke jednaka je standardnoj devijaciji σ. Vrijednosti funkcije gustine u prevojnim tačkama x - σ i x + σ iznose 60,7 % maksimalne vrijednosti. Širina zvona d predstavlja rastojanje između vrijednosti funkcije gustine koje iznose 36,8 % od maksimalne vrijednosti, pa je lako izračunati vrijednost širine zvona kao: d = σ Funkcija distribucije normalne raspodjele je: 1 (x x) 1 x F(x) = e σ dx σ π U Excelu postoji ugrađena funkcija koja izračunava normalnu raspodjelu vjerovatnoća prema sljedećoj sintaksi: NORMDIST(x; mean; standard_dev; cumulative) pri čemu je: X vrijednost, za koju se želi izračunati raspodjela. Mean = x je aritmetička srednja vrijednost raspodjele. Standard_dev = σ je standardna devijacija raspodjele. Cumulative je logička vrijednost koja određuje oblik funkcije. Ako je cumulative TRUE (ISTINA), NORMDIST izračunava funkciju raspodjele; ako je FALSE (LAŽ), izračunava funkciju gustine. Pri korištenju ove funkcije potrebno je znati: Ako mean ili standard_dev nije broj, NORMDIST postavlja vrijednost greške #NAME?. Ako je standard_dev 0, NORMDIST postavlja vrijednost greške #NUM!. Ako je mean = 0 i standard_dev = 1, NORMDIST izračunava vrijednost standardne normalne distribucije, NORMSDIST. 103
U Excelu, takođe, postoji ugrađena funkcija koja izračunava inverznu vrijednost kumulativne normalne raspodjele vjerovatnoće za poznatu srednju vrijednost i poznatu standardnu devijaciju prema sljedećoj sintaksi: NORMINV(probability; mean; standard_dev) pri čemu je: probability vjerovatnoća, u odnosu na normalnu raspodjelu; mean = x, aritmetička sredina raspodjele; standard_dev standardna devijacija raspodjele. Pri korištenju ove funkcije treba imati na umu: Ako neki argument nije broj, NORMINV postavlja vrijednost greške #NAME?. Ako je argument probability < 0 ili ako je argument probability > 1, NORMINV postavlja vrijednost greške #NUM!. Ako je standard_dev 0, NORMINV postavlja vrijednost greške #NUM!. NORMINV koristi standardnu normalnu raspodjelu ako je mean = 0 i standard_dev = 1. NORMINV koristi iterativnu tehniku za izračunavanje funkcije. Datoj se vrijednosti vjerojatnoće, NORMINV približava sve dok rezultat ne dođe unutar ± 3 x 10-7. Ako NORMINV ne konvergira nakon 100 iteracija, funkcija postavlja vrijednost greške #N/A. Pored funkcija NORMDIST i NORMINV u proračunskoj tablici Excel su ugrađene i funkcije NORMSDIST i NORMSINV. Funkcija NORMSDIST izračunava kumulativnu funkciju standardne normalne raspodjele. Standardna raspodjela ima srednju vrijednost 0 (nula) i standardnu devijaciju 1; njena funkcija distribucije data je izrazom: t z 1 F(z) = e dt π - i odgovara sljedećoj sintaksi funkcije NORMSDIST: NORMSDIST(z) pri čemu je: z vrijednost za koju se želi izračunati raspodjela; u slučaju da ovaj argument nije broj funkcija postavlja vrijednost greške #NAME?. Funkcija NORMSINV za poznatu vjerovatnoću izračunava z. Sintaksa funkcije NORMSINV glasi: NORMSINV(probability) pri čemu je: probability vjerojatnoća vezana uz standardnu normalnu raspodjelu. Takođe treba znati: Ako argument probability nije broj, NORMSINV postavlja vrijednost greške #NAME?. Ako je probability (vjerovatnoća) < 0 ili ako je probability (vjerovatnoća) > 1, NORMSINV postavlja vrijednost greške #NUM!. Funkcija NORMSINV koristi iterativnu tehniku za izračunavanje funkcije. Datoj se vrijednosti vjerovatnoće, NORMSINV približava sve dok rezultat ne dođe unutar ± 3 x 10-7. Ako NORMSINV ne konvergira nakon 100 iteracija, funkcija postavlja vrijednost greške #N/A. 104
Primjer 1. 406
Tablice - hi-kvadrat raspodjele CHIDIST( χ ; deg_freedom) = deg_freedom x 1 1 x e dx deg_freedom deg_freedom χ Γ Vrijednosti u tablici za hi-kvadrat raspodjelu izračunavamo posredstvom funkcije CHIINV. Ova funkcija izračunava inverznu vrijednost od funkcije hi-kvadrat raspodjele. Ako je probability = CHIDIST(χ ; deg_freedom), tada je CHIINV(probability;deg_freedom) =χ. Sintaksa funkcije je: CHIINV (probability; deg_freedom) Probability je vjerovatnoća povezana s χ - raspodjelom. Deg_freedom je broj stepeni slobode. Primjer 1. 407
Slika 1. Primjer. CHIINV(40%;8)=9,4861356 (slika 1.). 408
Primjer 3. χ : 95 % 3,94095 = CHIINV(95%;10) χ : χ : χ χ = 3, 94 95% χ = 3,94 95% 3,94095 = CHIINV(95%;10) 409
Tablica Kritična vrijednost Pearson-ovog koeficijenta korelacije, r Primjeri 1,, i 3. r=fisherinv(norminv(1-1%; 0; 1/SQRT(16-3)) = 0,64511 r=fisherinv(norminv(1%; 0; 1/SQRT(16-3)) = - 0,64511 r=fisherinv(norminv(1-0,5%; 0; 1/SQRT(16-3)) = 0,613434 410