VAJE 2: Opisna statistika

Similar documents
TOPLJENEC ASOCIIRA LE V VODNI FAZI

Reševanje problemov in algoritmi

Inferenčna statistika

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Parametrični in neparametrični pristopi za odkrivanje trenda v časovnih vrstah

LISREL. Mels, G. (2006). LISREL for Windows: Getting Started Guide. Lincolnwood, IL: Scientific Software International, Inc.

ENERGY AND MASS SPECTROSCOPY OF IONS AND NEUTRALS IN COLD PLASMA

Biološka ekvivalenca Statistične metode. Iztok Grabnar

Attempt to prepare seasonal weather outlook for Slovenia

OA07 ANNEX 4: SCOPE OF ACCREDITATION IN CALIBRATION

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R

ENAČBA STANJA VODE IN VODNE PARE

Metode raziskovanja. Vzorčenje. Vzorčenje. Raziskovalni proces

Statistika 2 z računalniško analizo podatkov. Neizpolnjevanje predpostavk regresijskega modela

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA POLONA ŠENKINC REŠEVANJE LINEARNIH DIFERENCIALNIH ENAČB DRUGEGA REDA S POMOČJO POTENČNIH VRST DIPLOMSKO DELO

STATISTIČNE METODE V PEDAGOŠKEM RAZISKOVANJU

Multipla regresija. Iztok Grabnar. Univerza v Ljubljani, Fakulteta za farmacijo

OPTIMIRANJE IZDELOVALNIH PROCESOV

Statistika 2 z računalniško analizo podatkov

modeli regresijske analize nominalnih spremenljivk

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ekstremne porazdelitve za odvisne spremenljivke

Analiza variance in linearna regresija

D I P L O M S K A N A L O G A

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

Simulation of multilayer coating growth in an industrial magnetron sputtering system

Hipohamiltonovi grafi

Problem umetnostne galerije

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Excel. Matjaž Željko

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Acta Chim. Slov. 2003, 50,

Chapter 1 - Lecture 3 Measures of Location

Linearna regresija. Poglavje 4

Ravni merjenja: številne posledice preproste ideje

A L A BA M A L A W R E V IE W

Z score indicates how far a raw score deviates from the sample mean in SD units. score Mean % Lower Bound

Verifikacija napovedi padavin

VERJETNOSTNI RAČUN IN STATISTIKA. Aleksandar Jurišić, FRI

Dejan Petelin. Sprotno učenje modelov na podlagi Gaussovih procesov

NIKJER-NIČELNI PRETOKI

Particija grafa, odkrivanje skupnosti in maksimalen prerez

UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. Oddelek za matematiko in računalništvo DIPLOMSKO DELO.

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ocenjevanje izvozne funkcije za Slovenijo

Univerza na Primorskem FAMNIT, MFI STATISTIKA 2 Seminarska naloga

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Kvadratne forme nad končnimi obsegi

Makroekonomija 1: 4. vaje. Igor Feketija

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. O neeksaknotsti eksaktnega binomskega intervala zaupanja

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Analiza oblike in površine stabilograma

Quartiles, Deciles, and Percentiles

Teorija verjetnosti uvod. prof. dr. Jurij Tasič Asistent Emil Plesnik Laboratorij za digitalno obdelavo signalov, slik in videa

Calculation of stress-strain dependence from tensile tests at high temperatures using final shapes of specimen s contours

POLDIREKTNI PRODUKT GRUP

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Verjetnostni algoritmi za testiranje praštevilskosti

Domen Perc. Implementacija in eksperimentalna analiza tehnike razvrščanja podatkov s konsenzom

Inštitut za matematiko, fiziko in mehaniko. Seminar DMFA Slovenije. Zgledi uporabe statistike na različnih strokovnih področjih

MICROWAVE PLASMAS AT ATMOSPHERIC PRESSURE: NEW THEORETICAL DEVELOPMENTS AND APPLICATIONS IN SURFACE SCIENCE

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA SAŠO ZUPANEC MAX-PLUS ALGEBRA DIPLOMSKO DELO

Introduction of Branching Degrees of Octane Isomers

JERNEJ TONEJC. Fakulteta za matematiko in fiziko

Simulacija dinamičnih sistemov s pomočjo osnovnih funkcij orodij MATLAB in Simulink

Distance reduction with the use of UDF and Mathematica. Redukcija dolžin z uporabo MS Excel ovih lastnih funkcij in programa Mathematica

Topološka obdelava slik

(Received )

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA DIPLOMSKO DELO MAJA OSTERMAN

Linearne enačbe. Matrična algebra. Linearne enačbe. Linearne enačbe. Linearne enačbe. Linearne enačbe

Nelinearna regresija. SetOptions Plot, ImageSize 6 72, Frame True, GridLinesStyle Directive Gray, Dashed, Method "GridLinesInFront" True,

R V P 2 Predavanje 05

JEDRSKA URA JAN JURKOVIČ. Fakulteta za matematiko in fiziko Univerza v Ljubljani

AKSIOMATSKA KONSTRUKCIJA NARAVNIH

Vpliv likvidnostnega tveganja na izračun tvegane vrednosti

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

DETERMINATION OF THE EFFECTIVE STRAIN FLOW IN COLD FORMED MATERIAL

USING SIMULATED SPECTRA TO TEST THE EFFICIENCY OF SPECTRAL PROCESSING SOFTWARE IN REDUCING THE NOISE IN AUGER ELECTRON SPECTRA

Tastitsticsss? What s that? Principles of Biostatistics and Informatics. Variables, outcomes. Tastitsticsss? What s that?

Spletni sistem za vaje iz jezika SQL

UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. Oddelek za matematiko in računalništvo DIPLOMSKO DELO

Stiskanje slik z algoritmi po vzorih iz narave

USING THE DIRECTION OF THE SHOULDER S ROTATION ANGLE AS AN ABSCISSA AXIS IN COMPARATIVE SHOT PUT ANALYSIS. Matej Supej* Milan Čoh

Miha Troha. Robotsko učenje in planiranje potiskanja predmetov

UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. Oddelek za matematiko in računalništvo MAGISTRSKA NALOGA. Tina Lešnik

Baroklina nestabilnost

The Periodic Table. Periodic Properties. Can you explain this graph? Valence Electrons. Valence Electrons. Paramagnetism

MANY ELECTRON ATOMS Chapter 15

Mathcad sa algoritmima

Razpoznavanje znakov prstne abecede na osnovi računalniškega vida

TEORIJA GRAFOV IN LOGISTIKA

Hiperbolične funkcije DIPLOMSKO DELO

Describing Data with Numerical Measures

Solutions. Name and surname: Instructions

VERJETNOSTNI RAČUN IN STATISTIKA. Aleksandar Jurišić, FRI

Univerza v Ljubljani Fakulteta za matematiko in fiziko. Oddelek za fiziko. Seminar - 3. letnik, I. stopnja. Kvantni računalniki. Avtor: Tomaž Čegovnik

UMESTITEV EKOLOŠKIH RAZISKAV MED OSTALE VRSTE RAZISKAV

UPORABA RAČUNALNIŠKE TEHNIKE PRI PRO- UČEVANJU PODEŽELJA

A comparative study of soil-structure interaction in the case of frame structures with raft foundation

Made the FIRST periodic table

MEASURES OF LOCATION AND SPREAD

Optimizacija delovanja in povečanje obiska na spletni strani

Chapter 4. Displaying and Summarizing. Quantitative Data

Transcription:

VAJE : Opisna statistika Na računalniških vajah se za urejanje in prikazovanje statističnih podatkov uporabi statistični programski paket SPSS in podatkovna datoteka podatki.sav. NALOGE: 1. Analiza vzorčnih parametrov statistične spremenljivke TežaO: (a) Vrednosti spremenljivke TežaO uredi v ranžirno vrsto po naraščajoči teži (uporabi postopek Data - Sort Cases - Ascending) in za vsako vrednost določi pripadajoči rang (uporabi postopek Transform - Rank Cases in označi Smallest Value). i. Katere range imajo vrednosti 45, 56, 67 in 85? ii. Katere vrednosti spremenljivke TežaO ustrezajo rangom 19, 34, 117 in 181? (b) Iz ranžirne vrste določi največjo x max in najmanjšo x min vrednost spremenljivke TežaO ter izračunaj vzorčni variacijski razmik vr. (c) S pomočjo ranžirne vrste izračunaj vse tri vzorčne kvartile q 1, q = m (vzorčna mediana) in q 3 ter določi še vzorčni kvartilni razmik kr in odklon ko. (d) Izdelaj frekvenčno porazdelitev statistične spremenljivke TežaO in določi vzorčni modus. (e) Z uporabo programa SPSS izračunaj vzorčno povprečje x, vzorčno disperzijo s in vzorčni standardni odklon s. Uporabi postopek Analyze - Descriptive Statistics - Frequencies - Statistics in označi Mean (povprečje), Variance (disperzija) ter Std. Deviation (standardni odklon). (f) S programom SPSS še enkrat izračunaj vrednosti iz primerov (b), (c) in (d). Uporabi postopek Analyze - Descriptive Statistics - Frequencies - Statistics in označi Median (mediana), Mode (modus), Range (variacijski razmik), Minimum (najmanjša vrednost), Maximum (največja vrednost), Quartiles (kvartili).. Izračunaj vzorčne mere srednje vrednosti (modus, mediana, povprečje) in vzorčne mere variabilnosti (variacijski razmik, kvartilni razmik, kvartilni odklon, disperzijo in standardni odklon) za statistično spremenljivko Starost. Določi tudi asimetričnost in sploščenost spremenljivke Starost. 1

3. Vrednosti spremenljivke KoličinaTD uredi v ranžirno vrsto po naraščajoči količini in za vsako vrednost določi pripadajoči rang. (a) S pomočjo ranžirne vrste izračunaj vseh devet vzorčnih decilov d 1, d,...,d 9 ter določi še vzorčni decilni razmik dr in odklon do. (b) Rezultate iz primera (a) preveri s pomočjo programa SPSS (uporabi postopek Analyze - Descriptive Statistics - Frequencies - Statistics in označi Percentile(s) in dodaj vrednosti 10, 0,..., 90). 4. Izračunaj vzorčne mere srednje vrednosti in vzorčne mere variabilnosti za statistično spremenljivko KoličinaTD glede na spremenljivko Šport. (a) Primerjaj vzorčno povprečje popite tekočine na dan pri osebah, ki se oz. se ne ukvarjajo s športom. Kaj ugotoviš? (b) V obeh obravnavanih primerih (oseba se oz. se ne ukvarja s športom) glede na vzorčno mediano določi interval v katerem leži osrednjih 50% vzorčnih vrednosti. (c) Oceni, koliko odstotkov oseb, ki se ne ukvarja s športom, popije premalo količino tekočine? Rezultat preveri s kontingenčno tabelo (uporabi postopek Analyze - Descriptive Statistics - Crosstabs - Row (KoličinaPT) - Column (Šport) in v Cells označi Percentages Column). Navodilo: najprej uporabi postopek Data - Split File in označi Organize output by groups ter dodaj spremenljivko Šport, nato naredi ustrezno analizo. 5. Izračunaj vzorčno povprečje in vzorčni standardni odklon statistične spremenljivke KoličinaTD glede na vrednosti spremenljivke Rasa. Interpretiraj rezultat! 6. S programom SPSS iz danih podatkov glede na navedene pogoje izberi manjši vzorec za statistični spremenljivki TežaO in Starost ter oba vzorca ustrezno analiziraj. (a) Za statistično spremenljivko TežaO izberi naključni vzorec velikosti 50 enot (uporabi postopek Data - Select Cases in izberi Random sample of cases ter v Sample... izberi Exactly 50 cases from the first 189). Na svojem vzorcu izračunaj variacijski razmik, kvartile in kvartilni razmik. Dobljene rezultate primerjaj z rezultati na celotnem vzorcu.

(b) Iz celotnega vzorca izberi le tiste osebe, ki so starejše od 3 let (uporabi postopek Data - Select Cases in izberi If condition is satisfied ter v If... za spremenljivko Starost določi Starost >= 3). Na manjšem vzorcu izračunaj vzorčne mere srednje vrednosti (modus, mediana, povprečje) in vzorčne mere variabilnosti (variacijski razmik, kvartilni razmik, kvartilni odklon, disperzijo in standardni odklon). Prav tak določi še asimetričnost in sploščenost manjšega vzorca. Kaj ugotoviš, če dobljene rezultate primerjaš z rezultati na celotnem vzorcu? Teoretično ozadje Srednje vrednosti Pod pojmom srednja vrednost razumemo vrednost, ki pokaže osrednjo tendenco (težnjo) vrednosti statistične spremenljivke na neki populaciji. To je vrednost okoli katere se na populaciji zgostijo vrednosti statistične spremenljivke. Poznamo več meril za srednjo vrednost. Najpomembnejše med njimi so aritmetična sredina ali povprečje, mediana in modus. Srednje vrednosti populacije velikokrat tudi ne poznamo in jih praviloma ocenjujemo iz srednjih vrednosti vzorca. Posebej velja poudariti, da je srednja vrednost (povprečje, mediana, modus) parameter, če se uporablja za opis populacije, ker je ta vrednost na populaciji fiksna. V primeru, ko govorimo o srednji vrednosti na vzorcu neke populacije, pa je srednja vrednost statistika, torej statistična spremenljivka, ki se od vzorca do vzorca spreminja. Zato v tem primeru ustrezne srednje vrednosti vzorca imenujemo tudi vzorčna aritmetična sredina ali vzorčno povprečje, vzorčna mediana in vzorčni modus. V nadaljevanju naj bo X številska statistična spremenljivka na populaciji G. Naj bo H vzorec te populacije, ki ga sestavlja n enot. Z x 1, x,..., x n po vrsti označimo vrednosti statistične spremenljivke X, ki jih je le-ta zavzela na vzorcu H. V vzorcu so torej vrednosti zapisane po vrstnem redu izbiranja oz. merjenja. Realizacijo vzorca lahko prikažemo tudi s t.i. ranžirno vrsto, kjer rezultate razvrstimo po velikosti v naraščajočem zaporedju x (1), x (),..., x (n) t.p. x (1) x ()... x (n). Vsaki enoti v ranžirni vrsti predpišemo zaporedno številko (od 1 do n), ki jo imenujemo rang. Kadar se v ranžirni vrsti pojavi več enot z isto vrednostjo, seštejemo 3

range, ki bi jih enote dobile, in vsoto delimo s številom teh enot. Povprečen, na ta način dobljeni rang, potem damo vsem enotam, ki imajo to isto vrednost. Vzorčni modus Najpreprostejša in zato tudi najmanj uporabna mera srednje vrednosti je modus ali najpogostejša vrednost, t.j. vrednost, ki se pojavi največkrat. Posebej velja omeniti, da modus ni nujno enolično določen, lahko obstaja več modusov. V primeru, da obstaja več modusov, je to znak, da statistična spremenljivka na vzorcu ali populaciji ni homogena. Vzorčni modus dobro predstavlja vrednosti vzorca, saj je to vrednost, okoli katere so vrednosti najbolj goste. Vzorčna mediana Vzorčna mediana, ki jo označimo z m, je srednja vrednost po položaju, je v sredini ranžirne vrste vrednosti statistične spremenljivke. Za mediano je torej značilno, da je polovica vrednosti statistične spremenljivke večjih ali enakih, polovica pa manjših ali enakih od nje. Iz ranžirne vrste izračunamo vzorčno mediano kot { 1 ( ) x(k) + x m = (k+1) ; n = k x (k+1) ; n = k + 1. Opomniti velja, da v primeru sode velikosti vzorca vzorčna mediana v splošnem ne leži v vzorcu. Dobra lastnost mediane je, da na njeno vrednost ne vplivajo ekstremne vrednosti, njena slabost pa, da ne izčrpamo vse informacije, ki nam jo dajejo podatki. Vzorčno povprečje Vzorčno povprečje, ki ga označimo z x, statistične spremenljivke X na vzorcu je defnirano s predpisom x = x 1 + x +... + x n. n Praviloma, je vzorčno povprečje najboljša mera za srednjo vrednost, ker pri izračunu povprečja upoštevamo vse vrednosti in njihove velikosti. Na povprečje imajo velik vpliv tudi ekstremne vrednosti. Ravno zaradi te lastnosti je povprečje mogoče manj primerna srednja vrednost za tiste statistične spremenljivke, ki so zelo nehomogene. 4

Mere variabilnosti (razpršenosti) Pri analizi statističnih spremenljivk nas poleg srednje vrednosti spremenljivke zanima tudi koliko so posamezne vrednosti razpršene oz. varirajo okoli te vrednosti. Poznamo več vrst mer za variabilnost, delimo jih na razmike in odklone. Variacijski razmik Variacijski razmik ali variacijski razpon je mera variabilnosti, ki jo izračunamo kot razliko med največjo in najmanjšo vrednostjo, ki jo zavzame statistična spremenljivka: vr = x max x min, to je razlika med najveljo x (n) in najmanjšo x (1) vrednostjo v ranžirni vrsti. Variacijski razmik je groba in zelo nestabilna mera, ki jo določata samo dve skrajni vrednosti statistične spremenljivke, zato ni primerna za nadaljne analitične obravnave. Kvantilni razmiki Naj bo naravno število r določeno s predpisom { np ; če je np naravno število r = [np] + 1 ; če np ni naravno število. Potem vrednost q p = x (r) imenujemo p-ti vzorčni kvantil. Določeni kvantili nosijo tudi posebna imena. Tako kvantilom q 1 = q 1, q = q, q 3 = q 3 4 4 4 pravimo kvartili. Kvartili, kot že ime pove, ranžirno vrsto razdelijo na štiri dele. V literaturi srečamo tudi decile, ki ranžirno vrsto razdelijo na 10 delov in centile, ki ranžirno vrsto razdelijo na 100 delov. Kvartilni razmik ali tudi interkvartilni razmik je mera variabilnosti, ki jo izračunamo kot razliko med tretjim in prvim kvartilom kr = q 3 q 1. Kvartilni razmik teoretično obsega 50% vrednosti (rezultatov) populacije ali vzorca, 5% manjših in 5% večjih vrednosti je zunaj njega. Kvartilni razmik je zanesljivejša 5

mera variabilnosti od variacijskega razmika, ker nanj ne vplivajo skrajne vrednosti. V literaturi srečamo še decilni in centilni razmik, ki sta definirana kot dr = d 9 d 1 in cr = c 99 c 1. Kvantilni odkloni Glede na mediano m poznamo tako imenovani: kvartilni odklon, ki je definiran kot decilni odklon, določen s predpisom centilni odklon, določen kot ko = q 3 q 1 do = d 9 d 1 co = c 99 c 1 ; ;. Varianca (disperzija) in standardni odklon Varianca ali disperzija je najpomembnejša mera variabilnosti. Disperzija vzorca je definirana kot povprečje kvadratov odklonov od vzorčnega povprečja t.j. Korenu vzorčne deisperzije 1 n 1 n n (x i x). i=1 n (x i x) i=1 rečemo standardni odklon vzorca. Na populaciji praviloma za standardni odklon uporabimo grško črko σ in disperzijo označujemo s σ. 6

V zvezi z disperzijo vzorca je za nadaljno analitično obravnavo (npr. za oceno populacijske disperzije iz vzorčne disperzije) najbolj pomembna naslednja statistika s = 1 n 1 n (x i x), i=1 imenovana vzorčna disperzija. Pod vzorčno disperzijo bomo imeli v mislih statistiko in pod vzorčnim standardnim odklonom bomo razumeli s = 1 n (x i x) n 1. i=1 Omenimo še, da je v praksi potrebno pogosto primerjati variranje različnih statističnih spremenljivk, ki so med seboj v kakšni povezavi. V ta namen uporabjamo variacijski koeficient, ki je defniran z deležem kv = s x. Asimetričnost in sploščenost Asimetričnost (ang. Skewness) definiramo kot sploščenost (ang. Kurtosis) pa s formulo A = m 3 m 3, K = m 4, m kjer je m k k-ti centralni moment. V teoriji verjenosti je centralni moment definiran kot m k = E((X E(X)) k ), kjer je E(X) matematično upanje, ki mu pogosto pravimo kar povprečje. S koeficientom asimetrije merimo asimetrijo vzorca. Kritične vrednosti: A > 0 - asimetrija v desno, A = 0 - porazdelitev je simetrična, A < 0 - asimetrija v levo. 7

S koeficientom sploščenosti merimo stopnjo sploščenosti vzorca. Kritične vrednosti: K > 0 - koničasta porazdelitev, K = 0 - spremenljivka se porazdeljuje normalno, K < 0 - sploščena porazdelitev. Literatura [1] D. Benkovič, Vaje iz biostatistike, Medicinska fakulteta Univerze v Mariboru. [] R. Jamnik, Matematična statistika, Državna založba Slovenije, Ljubljana 1980. [3] J. Sagadin, Statistične metode za pedagoge, Obzorja, Maribor 003. 8