U X. 1. Multivarijantna statistička analiza 1

Similar documents
KLASIFIKACIJA NAIVNI BAJES. NIKOLA MILIKIĆ URL:

Projektovanje paralelnih algoritama II

Fajl koji je korišćen može se naći na

Red veze za benzen. Slika 1.

Mathcad sa algoritmima

Algoritam za množenje ulančanih matrica. Alen Kosanović Prirodoslovno-matematički fakultet Matematički odsjek

Slika 1. Slika 2. Da ne bismo stalno izbacivali elemente iz skupa, mi ćemo napraviti još jedan niz markirano, gde će

TEORIJA SKUPOVA Zadaci

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

Asian Journal of Science and Technology Vol. 4, Issue 08, pp , August, 2013 RESEARCH ARTICLE

Uvod u relacione baze podataka

F M U Total. Total registrants at 31/12/2014. Profession AS 2, ,574 BS 15,044 7, ,498 CH 9,471 3, ,932

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

MATHEMATICAL ANALYSIS OF PERFORMANCE OF A VIBRATORY BOWL FEEDER FOR FEEDING BOTTLE CAPS

Metode praćenja planova

AD HOC DRAFTING GROUP ON TRANSNATIONAL ORGANISED CRIME (PC-GR-COT) STATUS OF RATIFICATIONS BY COUNCIL OF EUROPE MEMBER STATES

Multivariate Analysis

BOSNA I HERCEGOVINA TRŽIŠTE OSIGURANJA 2009

LLL Seminari u okviru TEMPUS projekta

Osobine metode rezolucije: zaustavlja se, pouzdanost i kompletnost. Iskazna logika 4

CropCast Europe Weekly Report

LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

VELOCITY PROFILES AT THE OUTLET OF THE DIFFERENT DESIGNED DIES FOR ALUMINIUM EXTRUSION

ZANIMLJIVI ALGEBARSKI ZADACI SA BROJEM 2013 (Interesting algebraic problems with number 2013)

HENDERSON'S APPROACH TO VARIANCE COMPONENTS ESTIMATION FOR UNBALANCED DATA UDC Vera Djordjević, Vinko Lepojević

WHO EpiData. A monthly summary of the epidemiological data on selected Vaccine preventable diseases in the European Region

FTN Novi Sad Katedra za motore i vozila. Drumska vozila Uputstvo za izradu vučnog proračuna motornog vozila. 1. Ulazni podaci IZVOR:

ANALYTICAL AND NUMERICAL PREDICTION OF SPRINGBACK IN SHEET METAL BENDING

WHO EpiData. A monthly summary of the epidemiological data on selected Vaccine preventable diseases in the European Region

Nonlinear Statistical Methodology Applied on Modeling the Growth Correlation of Some Global Macroeconomic Parameters

AIR CURTAINS VAZDU[NE ZAVESE V H

WHO EpiData. A monthly summary of the epidemiological data on selected Vaccine preventable diseases in the WHO European Region

Rešenja zadataka za vežbu na relacionoj algebri i relacionom računu

WHO EpiData. A monthly summary of the epidemiological data on selected Vaccine preventable diseases in the WHO European Region

A Markov system analysis application on labour market dynamics: The case of Greece

Metoda parcijalnih najmanjih kvadrata: Regresijski model

Iskazna logika 1. Matematička logika u računarstvu. oktobar 2012

THE CHANGE OF GENETIC AND PHENOTYPIC VARIABILITY OF YIELD COMPONENTS AFTER RECURRENT SELECTION OF MAIZE

Calories, Obesity and Health in OECD Countries

WHO EpiData. A monthly summary of the epidemiological data on selected Vaccine preventable diseases in the European Region

WHO EpiData. A monthly summary of the epidemiological data on selected vaccine preventable diseases in the European Region

Metode izračunavanja determinanti matrica n-tog reda

Matrice traga nula math.e Vol. 26. math.e. Hrvatski matematički elektronički časopis. Matrice traga nula. komutator linearna algebra. Sažetak.

WHO EpiData. A monthly summary of the epidemiological data on selected Vaccine preventable diseases in the European Region

ANALYSIS OF INFLUENCE OF PARAMETERS ON TRANSFER FUNCTIONS OF APERIODIC MECHANISMS UDC Života Živković, Miloš Milošević, Ivan Ivanov

ANALYSIS OF THE RELIABILITY OF THE "ALTERNATOR- ALTERNATOR BELT" SYSTEM

DETERMINATION OF THE EFFECTIVE STRAIN FLOW IN COLD FORMED MATERIAL

FIZIKALNA KOZMOLOGIJA VII. VRLO RANI SVEMIR & INFLACIJA

Zadatci sa ciklusima. Zadatak1: Sastaviti progra koji određuje z ir prvih prirod ih rojeva.

IMPROVEMENT OF HIPPARCOS PROPER MOTIONS IN DECLINATION

UOPŠTENI INVERZI, FAKTORI USLOVLJENOSTI I PERTURBACIJE

MB of. Cable. Wholesale. FWBA (fixed OAOs. connections of which Full unbundled. OAO owning. Internet. unbundled broadband

Philippe Jodin. Original scientific paper UDC: :519.6 Paper received:

Trends in Human Development Index of European Union

INVESTIGATION OF UPSETTING OF CYLINDER BY CONICAL DIES

Weekly price report on Pig carcass (Class S, E and R) and Piglet prices in the EU. Carcass Class S % + 0.3% % 98.

NAPREDNI FIZIČKI PRAKTIKUM 1 studij Matematika i fizika; smjer nastavnički MJERENJE MALIH OTPORA

Ksenija Doroslovački KOMBINATORIKA INTERPRETIRANA FUNKCIJAMA I NJIHOVIM OSOBINAMA MASTER RAD. NOVI SAD jun 2008

DISTRIBUIRANI ALGORITMI I SISTEMI

PRECIPITATION FORECAST USING STATISTICAL APPROACHES UDC 55:311.3

Metrički prostori i Riman-Stiltjesov integral

Geometrijski smisao rješenja sustava od tri linearne jednadžbe s tri nepoznanice

You created this PDF from an application that is not licensed to print to novapdf printer (

BROJEVNE KONGRUENCIJE

Harun Kuč : Statistika u Excelu. Izdavač : Weling SD Zenica Za izdavača : Damir Bajramović. Recenzenti : Dr. Hasan Zolić Dr.

Programiranje u realnom vremenu Bojan Furlan

The trade dispute between the US and China Who wins? Who loses?

Measuring Instruments Directive (MID) MID/EN14154 Short Overview

Composition of capital NO051

Composition of capital CY007 CY007 POWSZECHNACY007 BANK OF CYPRUS PUBLIC CO LTD

Composition of capital ES060 ES060 POWSZECHNAES060 BANCO BILBAO VIZCAYA ARGENTARIA S.A. (BBVA)

Composition of capital DE025

Composition of capital LU045 LU045 POWSZECHNALU045 BANQUE ET CAISSE D'EPARGNE DE L'ETAT

Composition of capital CY006 CY006 POWSZECHNACY006 CYPRUS POPULAR BANK PUBLIC CO LTD

Composition of capital DE028 DE028 POWSZECHNADE028 DekaBank Deutsche Girozentrale, Frankfurt

Composition of capital FR015

Composition of capital FR013

Composition of capital DE017 DE017 POWSZECHNADE017 DEUTSCHE BANK AG

Composition of capital ES059

VREMENSKE SERIJE U FINANSIJAMA: ARCH I GARCH

Drawing the European map

Bilateral Labour Agreements, 2004

STATISTICA MULTIVARIATA 2

Modelling structural change using broken sticks

Annotated Exam of Statistics 6C - Prof. M. Romanazzi

ESTIMATION OF HERITABILITY COEFFICIENTS OF NUMBER OF BORN ALIVE PIGLETS IN THE FIRST THREE FARROWINGS SWEDISH LANDRACE SOWS

Composition of capital as of 30 September 2011 (CRD3 rules)

Composition of capital as of 30 September 2011 (CRD3 rules)

Composition of capital as of 30 September 2011 (CRD3 rules)

Composition of capital as of 30 September 2011 (CRD3 rules)

Composition of capital as of 30 September 2011 (CRD3 rules)

Composition of capital as of 30 September 2011 (CRD3 rules)

PLUTO The Transport Response to the National Planning Framework. Dr. Aoife O Grady Department of Transport, Tourism and Sport

READY TO SCRAP: HOW MANY VESSELS AT DEMOLITION VALUE?

VIŠESTRUKO USPOREĐIVANJE

IEEE..- AD-A INDICATORS OF COMPARATIVE EAST-EST ECONOMIC STRENGTH 171

Variance estimation on SILC based indicators

The EuCheMS Division Chemistry and the Environment EuCheMS/DCE

CASTOR A PROPULSION SHAFTLINE TORSIONAL VIBRATION ASSESSMENT TOOL

Transcription:

. Multivarijantna statistička analiza Standardizovana (normalizovana) vrednost obeležja Normalizovano odstupanje je mera varijacije koja pokazuje algebarsko odstupanje jedne vrednosti obeležja od aritmetičke sredine, izraženo u standardnim devijacijama. Ova mera je pogodna za upoređivanje varijacija obeležja iz različitih numeričkih serija čija su obeležja izražena u različitim jedinicama mere. U literaturi se vrlo često za normalizovano odstupanje upotrebljava naziv z-skor. Formule za izračunavanje su sledeće: [2-33] Za osnovni skup: [2-34] Za uzorak: U X. X x U. u u Analiza glavnih komponenti (Principal Components Analysis) Definicija Ovu tehniku je prvi put opisao Karl Pearson 9. godine. Iako je vršio izračunavanja sa samo dve ili tri varijable Pearson je verovao da se analiza glavnih komponenti može upotrebiti i za rešavanje problema sa puno više promenljivih. Opis izračunavanja je dat mnogo kasnije od strane Htelling-a, 933. godine. Međutim, i dalje su izračunavanja bila previše komplikovana i zamorna kada bi trebalo napraviti analizu sa većim brojem varijabli. Široka upotreba analize glavnih komponenti je usledila zapravo tek sa pojavom računara. Analiza glavnih komponenti predstavlja jednu od najjednostavnih multivarijantih tehnika. Ona se primenjuje kada je velik broj varijabli u skupu redundantan, odnosno kada se više varijabli odnosi na istu dimenziju i kada ne pružaju nikakvu dodatnu informaciju koja već nije obuhvaćena nekom drugom varijablom. Geometrijski gledano, to znači da na prostoru od k dimenzija imamo p varijabli

. Multivarijantna statistička analiza 2 pri čemu je k<p. Očekuje se da će k najvećih glavnih komponenti biti dovoljno da objasni varijabilitet podataka u skupu. Cilj analize je da se uzme p varijabli (X, X 2,...,X p ) i da se pronađe kombinacija istih da bi se izračunale nove varijable (Z,Z 2,...,Z p ) koje međusobno nisu u korelaciji i koje će opisivati varijacije podataka. Nepostojanje korelacije znači da nove varijable mere međusobno različite dimenzije podataka. i njihove varijanse su poređane u opadajući niz (Var(Z ) Var(Z 2 )... Var(Z p )). Promenljive Z predstavljaju zapravo glavne komponente. Kada se radi analiza glavnih komponenti, želja je da varijanse većine promenljivih Z budu toliko male da su zanemarljive. U tom slučaju, veći deo varijacija originalnih podataka se može adekvatno opisati sa svega nekoliko glavnih komponenti, čime se postiže određeni stepen uštede. Analiza glavnih komponenti ne uspeva uvek u tome da veliki broj originalnih varijabli X smanji na mali broj izvedenih varijabli Z. Ako originalne varijable nisu u korelaciji, analiza neće postići nikakav rezultat. Najbolji rezultati se postižu kada su originalne varijable u visokoj korelaciji, bilo pozitivnoj ili negativnoj. Ako postoji takav slučaj, onda se može očekivati da će se skup od 2 originalnih varijabli redukovati na svega dve ili tri glavne komponente. Pored toga, korisna će biti i činjenica da je otkriven visok stepen redundantnosti kod originalnih varijabli. Izvedena proenljiva Z predstavlja zapravo prosek standardizovanih vrednosti obeležja originalnih promenljivih i može se posmatrati kao indeks. Procedura Analiza počinje sa podacima o p varijabli za n jedinica posmatranja, kao što pokazuje tabela. Prva glavna komponenta je tada linearna kombinacija originalnih varijabli (X, X 2,...,X p ): Z a X a X 2... a 2 p X p, koje variraju što je više moguće individualno, pod uslovom da je zadovoljen uslov: 2 2 2 a a2... a p. Tabela: Izgled podataka za analizu glavnih komponenti Redni broj X X 2... X p x x 2... x p 2 x 2 x 22... x 2p............... n x n x n2... x np Varijansa izvedene promenljive Z, Var(Z ), je zbog postavljenog uslova maksimalna. Navedeni uslov je postavljen jer bez njega Var(Z ) bi mogla da se povećava jednostavnim povećavanjem bilo koje od vrednosti a j.

. Multivarijantna statistička analiza 3 Druga glavna komponenta se izračunava na sledeći način: Z 2 a2 X a22 X 2... a2 p X p. Varijansa druge glavne komponente, Var(Z 2 ), ima maksimalnu vrednost jer je postavljen uslov: 2 2 2 a2 a22... a 2 p. Dodatni uslov je da izvedene varijable Z i Z 2 imaju korelaciju nula. Naredne glavne komponente se definišu na identičan način. Ako postoji p varijabli u sistemu, onda će postojati i p glavnih komponenti. Da bi se dobili i koristili rezultati analize glavnih komponenti, nije potrebno znati kako se jednačine za glavne komponente izračunavaju. Međutim, potrebno je poznavati prirodu jednačina. Analiza glavnih komponenti podrazumeva pronalaženje ajgenvrednosti matrice kovarijansi uzorka. Matrica kovarijansi je simetrična i ima sledeći oblik: c c 2...... c p c 2 c 22...... c 2p C =.............................. c p c p2...... c pp U matrici dijagonalni elementi c ii su zapravo varijansa originalne promenljive X i, dok su ostali elementi van dijagonale, c ij, kovarijanse originalnih promenljivih X i i X j. Varijanse glavnih komponenti su ajgenvrednosti matrice C. Postoji p ajgenvrednosti, od kojih su neke nula. Negativne ajgenvrednosti ne mogu biti negativne u matrici kovarijansi. Ajgenvrednost λ i je zapravo varijansa glavne komponente Z i, odnosno λ i =Var(Z i ). Važna osobina ajgenvrednosti je da je njihov zbir jednak zbiru elemenata na dijagonali matrice C: λ + λ 2 +...+λ p = c + c 22 +...+ c pp. Iz ovoga proizilazi da je suma varijansi originalnih varijabli jednaka sumi varijansi izvedenih varijabli.to znači da glavne komponente obuhvataju sve varijacije originalnih podataka. Da neka od originalnih varijabli ne bi imala prejak uticaj na glavne komponente i stvarala pristrasnost rezultata, vrši se njihovo kodiranje tako da imaju aritmetičku sredinu nula i varijansu jednaku jedinici. Drugim rečima izračunavaju se standardizovane vrednosti iz originalnih podataka. Matrica C tada ima sledeći oblik: c 2...... c p c 2...... c 2p C =...............

. Multivarijantna statistička analiza 4............... c p c p2...... U ovoj matrici je c ij =c ji. Drugim rečima, analiza glavnih komponenti je izvedena na korelacionoj matrici. U tom slučaju, suma dijagonalnih elemenata, time i suma ajgenvektora, jednaka je sa brojem originalnih varijabli (p). Analiza glavnih komponenti se izvodi u sledećim koracima:. Vrši se standardizacija originalnih podataka tako da originalne varijable imaju aritmetičku sredinu jednaku nuli i varijansu jednaku jedinici. Ovaj korak se najčešće ne preskače iako ima slučajeva da se to čini kada se veruje da je važnost originalnih varijabli dobro iskazana kroz varijanse. 2. Izračunava se matrica kovarijansi C. 3. Izračunavaju se ajgenvrednosti λ,λ 2,...,λ p i odgovarajući ajgenvektori a,a 2,...,a p. Glavna komponenta je tako iskazana preko koeficijenta a i i varijanse λ i. 4. Komponente koje se u modelu odnose na malu proporciju varijacija podataka se eliminišu. Na primer, ako prve dve komponente objašnjavaju 95% varijanse, onda se sve ostale eliminišu. Tada su prve dve komponente zapravo glavne komponente. Primer: Dve grupe pilića Na jednoj farmi popisano je pet različitih telesnih dimenzija pilića (X do X 5 ). Pilići su podeljeni u dve grupe: prva grupa (od rednog broj do 2) je bila otporna na bolest, dok druga grupa (od rednog broja 22 do 49) nije bila. Originalni podaci se nalaze u tabeli. Podaci o koeficijentima korelacije koji su dati u tabeli ukazuju da su dovoljno visoki da bi se mogla izvesti analiza glavnih komponenti. Tabela: Koeficijenti korelacije originalnih varijabli Varijable X X 2 X 3 X 4 X 5 X, - - - - X 2,735, - - - X 3,662,674, - - X 4,645,769,763, - X 5,65,529,526,67, Tabela Redni broj Grupa X X 2 X 3 X 4 X 5

. Multivarijantna statistička analiza 5 56 245 3.6 8.5 2.5 2 54 24 3.4 7.9 9.6 3 53 24 3. 8.4 2.6 4 53 236 3.9 7.7 2.2 5 55 243 3.5 8.6 2.3 6 63 247 32. 9. 2.9 7 57 238 3.9 8.4 2.2 8 55 239 32.8 8.6 2.2 9 64 248 32.7 9. 2. 58 238 3. 8.8 22. 58 24 3.3 8.6 22. 2 6 244 3. 8.6 2.5 3 6 246 32.3 9.3 2.8 4 57 245 32. 9. 2. 5 57 235 3.5 8. 9.8 6 56 237 3.9 8. 2.3 7 58 244 3.4 8.5 2.6 8 53 238 3.5 8.2 2.9 9 55 236 3.3 8.5 2. 2 63 246 32.5 8.6 2.9 2 59 236 3.5 8. 2.5 22 55 24 3.4 8. 2.7 23 56 24 3.5 8.2 2.6 24 6 242 32.6 8.8 2.7 25 52 232 3.3 7.2 9.8 26 6 25 3.7 8.8 22.5 27 55 237 3. 8.5 2. 28 57 245 32.2 9.5 2.4 29 65 245 33. 9.8 22.7 3 53 23 3. 7.3 9.8 3 62 239 3.3 8. 23. 32 62 243 3.6 8.8 2.3 33 59 245 3.8 8.5 2.7 34 59 247 3.9 8. 9. 35 55 243 3.9 8.5 2.3 36 62 252 3.9 9. 22.2 37 52 23 3.4 7.3 8.6 38 59 242 3.8 8.2 2.5 39 55 238 3.2 7.9 9.3 4 63 249 33.4 9.5 22.8 4 63 242 3. 8. 2.7 42 56 237 3.7 8.2 2.3 43 59 238 3.5 8.4 2.3 44 6 245 32. 9. 2.8 45 55 235 3.7 7.7 9.6 46 62 247 3.9 9. 2.4 47 53 237 3.6 8.6 2.4 48 62 245 32.5 8.5 2. 49 64 248 32.3 8.8 2.9 Prvi korak u analizi glavnih komponenti trebao bi da bude standardizacija svih vrednosti obeležja odnosno svih originalnih podataka. Na ovaj način se svim varijablama daje isti značaj u analizi. Kada se ne bi uradila standardizacija, varijable X i X 2 bi imale većeg uticaja kod izračunavanja glavnih komponenti jer imaju velike numeričke vrednosti. Matrica kovarijansi za standardizovane vrednosti je korelaciona matrica. Ajgenvrednosti te matrice su 3,66;,532;,386;,32 i,65. Zbir ovih vrednosti je tačno 5 koliko iznosi i zbir dijagonalnih elemenata u korelacionoj matrici.

. Multivarijantna statistička analiza 6 Naredna tabela sadrži ajgenvektore standardizovane tako da suma njihovih kvadrata iznosi za svaki ajgenvektor. Ovi ajgenvektori daju koeficijente za glavne komponente. Tabela: Ajgenvrednosti i ajgenvektori korelacione matrice originalnih varijabli Glavna komponenta Ajgenvrednost Ajgenvektori (koeficijenti glavnih komponenti) X X 2 X 3 X 4 X 5 Z 3,66,452,462,45,47,398 Z 2,532,5,3,325,85,877 Z 3,386,69,34,455,4,79 Z 4,32,42,548,66,388,69 Z 5,65,374,53,343,652,92 Ajgenvrednost ukazuje na udeo u ukupnoj varijansi koji je vezan za određenu glavnu komponentu. Na primer udeo prve glavne komponente (Z ) u ukupnoj varijansi iznosi: 3,66 72,3% 5 To znači da 72,3% varijacija podataka je posledica glavne komponente Z. Ostale komponente imaju udeo,6%; 7,7%; 6,% i 3,3% respektivno. Uočava se da udeo komponenti postepeno opada. Prva komponenta je, naravno, daleko važnija i uticajnija od ostalih. Prema tome, jednačina prve glavne komponente iznosi: Z,452 X,462 X 2,45X 3,47X 4, 398 X 5 gde su vrednosti od X do X 5 standardizovane varijable. Uočava se da su koeficijenti svih varijabli približno jednaki, što upućuje na podjednaku važnost svih dimenzija kod pilića. Na osnovu dobijenih rezultata zaključuje se da 72,3% varijacija podataka dolazi usled razlike u veličini pilića. Jednačina za drugu glavnu komponentu je: Z 2,5 X,3 X 2,325 X 3,85 X 4, 877 X 5 Neki statistički programi mogu da daju obrnuti raspored predznaka: Z 2,5 X,3 X 2,325 X 3,85 X 4, 877 X 5 U ovom slučaju se menja smer ali se i dalje meri isti aspekt kod podataka. Kod druge komponente se uočava kontrast između promenljivih X i X 5 sa jedne i promenljivih X 2, X 3 i X 4 sa druge strane. To znači da će Z 2 biti visoka ako su visoke vrednosti varijabli X 2, X 3 i X 4, a niska vrednost X i X 5 i obrnuto. Niska vrednost koeficijenta varijable X (,5) upućuje na mali značaj varijable na Z 2. Druge varijable se mogu interpetirati na sličan način.

. Multivarijantna statistička analiza 7 Vrednosti glavnih komponenti mogu biti veoma korisne za dalju analizu. One su izračunate na osnovu standardizovane vrednosti obeležja. Na primer, za prvo pile iz uzorka originalne vrednosti obeležja su: x = 56; x 2 = 245 ; x 3 = 3,6; x 4 = 8,5; x 5 = 2,5. Aritmetičke sredine i standardne greške originalnih promenljivih su: x 57,98 ; 654 3, ; x 24, 2 327 ; 2 5, 68 ; x 3, 3 459 ; 3, 795 ; x 8, 4 469 ; 4,564 ; x 2, 5 827 ; 5, 99. Standardizovane vrednosti se izračunavaju na sledeći način: 56 57,98 245 24,327 3,6 3,459 x,542 ; x 2, 725 ; x 3, 77 ; 3,654 5,68,795 8,5 8,469 2,5 2,827 x 4,55; x 5, 33.,564,99 Vrednost prve glavne komponente za prvo pile se izračunava na sledeći način:,542,462,725,45,77,47,55,398,33, 64 Z,452 Vrednost druge glavne komponente za drugo pile se izračunava na sledeći način:,542,3,725,325,77,85,55,877,33, 62 Z 2,5 Ostale glavne komponente se izračunavaju na sličan način. U nastavku analize, mogu se izračunati sve glavne komponente za sve jedinice posmatranja i zatim izvršiti upoređivanje između dve grupe pilića. Izračunate su aritmetičke sredine i standardne devijacije za obe grupe i prikazane u tabeli. Tabela: Poređenje dve grupe jedinica posmatranja preko aritmetičkih sredina i standardnih devijacija glavnih komponenti Glavna komponenta Aritmetička sredina Standardna devijacija I grupa II grupa I grupa II grupa Z,,75,56 2,76 Z 2,4,3,684,776 Z 3,4,5,522,677 Z 4,73,55,563,543 Z 5,23,7,4,48

. Multivarijantna statistička analiza 8 Kada se primeni t-test, nijedna od razlika aritmetičkih sredina dve grupe nije statistički značajna. Takođe, nijedna od razlika standardnih devijacija dve grupe nije statistički značajna kada se primeni F-test. Međutim, za testiranje razlika mogu da se primene i drugi testovi, kao, na primer, Levinov (Levene) test devijacije od medijane. Ovaj test otkriva razliku u varijacijama prve glavne komponente (Z ) između dve grupe uz nivo signifikantnosti od 5%. 4 Projection of the cases on the factor-plane ( x 2) Cases with sum of cosine square >=. Labelling variable: NewVar 3 Factor 2:.63% 2 - -2-3 -4-5 -8-6 -4-2 2 4 6 8 Factor : 72.32% Slika Raspored jedinica posmatranja (dve grupe pilića) na osnovu vrednosti dve glavne komponente. Active Slika pokazuje raspored dve grupe pilića (elementi prve grupe su označeni sa ) s obzirom na vrednost prve dve glavne komponente. Ovim grafičkim prikazom je obuhvaćeno 82,9% varijacija originalnih podataka. Slika jasno pokazuje kako su pilići sa ekstremnom veličinom određenih delova tela podložniji bolesti. Primer: Zaposlenost u evropskim zemljama Prikupljeni su podaci o procentu zaposlenih u devet industrijskih sektorau Evropi od 989. do 995. godine (tabela). Tabela: Procenat radne snage zaposlen u devet grana industrije u 3 zemalja Evrope Country Group AGR MIN MAN PS CON SER FIN SPS TC

. Multivarijantna statistička analiza 9 Belgium EU 2.6.2 2.8.8 6.3 6.9 8.7 36.9 6.8 Denmark EU 5.6. 2.4.7 6.4 4.5 9. 36.3 7 France EU 5..3 2.2.9 7. 6.7.2 33. 6.4 Germany EU 3.2.7 24.8 9.4 7.2 9.6 28.4 5.6 Ireland EU 22.2.5 9.2 6.8 8.2 5.3 9.8 6.9 Greece EU 3.8.6 9.8.2 7. 7.8 8.4 25.5 5.8 Italy EU 8.4. 2.93 9. 2.6 4.6 28 5.3 Luxembourg EU 3.3. 9.6.7 9.9 2.2 8.7 29.6 6.8 Netherlands EU 4.2. 9.2.7.6 8.5.5 38.3 6.8 Portugal EU.5.5 23.6.7 8.2 9.8 6.3 24.6 4.8 Spain EU 9.9.5 2..6 9.5 2. 5.9 26.7 5.8 U.K. EU 2.2.7 2.3.2 7 2.2 2.4 28.4 6.5 Austria EFTA 7.4.3 26.9.2 8.5 9. 6.7 23.3 6.4 Finland EFTA 8.5.2 9.3.2 6.8 4.6 8.6 33.2 7.5 Iceland EFTA.5 8.7.9 4.5 8 3.7 6.7 Norway EFTA 5.8. 4.6. 6.5 7.6 7.6 37.5 8. Sweden EFTA 3.2.3 9.8 6.4 4.2 9.4 39.5 7.2 Switzerland EFTA 5.6 24.7 9.2 2.5.7 23. 6.2 Albania Eastern 55.5 9.4 3.4 3.3 5.3 3 Bulgaria Eastern 9 35 6.7 9.4.5 2.9 7.5 Czech/Slovak Rep. Eastern 2.8 37.3 8.4.2.6 22.9 6.9 Hungary Eastern 5.3 28.9 6.4 3.3 27.3 8.8 Poland Eastern 23.6 3.9 24..9 6.3.3.3 24.5 5.2 Romania Eastern 22 2.6 37.9 2 5.8 6.9.6 5.3 6.8 USSR (form.) Eastern 8.5 28.8.2 7.9.6 25.6 8.4 Yugoslavia (form.) Eastern 5 2.2 38.7 2.2 8. 3.8 3. 9. 7.8 Cyprus Other 3.5.3 9.5 9. 23.7 6.7 2.2 6 Gibraltar Other 6.8 2 6.9 24.5.8 34 5 Malta Other 2.6.6 27.9.5 4.6.2 3.9 4.6 7.2 Turkey Other 44.8.9 5.3.2 5.2 2.4 2.4 4.5 4.4 Napomena: AGR - poljoprivreda, šumarstvo i ribarstvo; MIN - rudastvo; MAN - prerađivačka industrija; PS - Proizvodnja električne energije, gasa i vode; CON - građevinarstvo; SER - usluge; FIN - finansijski sektor; SPS društvene i lične usluge; TC transport i komunikacije. Koeficijenti korelacije su dati u tabeli. Tabela: Koeficijenti korelacije devet industrijskih sektora Varijable AGR MIN MAN PS CON SER FIN SPS TC AGR, - - - - - - - -

. Multivarijantna statistička analiza MIN,36, - - - - - - - MAN,254,672, - - - - - - PS,382,387,388, - - - - - CON,349,29,34,65, - - - - SER,65,47,33,55,473, - - - FIN,76,248,274,94,8,379, - - SPS,8,36,5,238,72,388,66, - TC,487,45,243,5,55,85,39,475, Ajgenvrednosti korelacione matrice, koje u zbiru iznose 9 zato što je to zbir elemenata dijagonale, date su u sledećoj tabeli: Tabela: Pregled glavnih komponenti Glavne komponente Ajgenvrednosti Udeo u ukupnoj varijansi Z 3,2 34,6% Z 2,89 2,% Z 3,496 6,6% Z 4,63,8% Z 5,7 7,9% Z 6,3 3,5% Z 7,293 3,3% Z 8,24 2,3% Z 9, % Poslednja ajgenvrednost je nula pa prema tome i pripadajuća glavna komponenta za sve jedinice posmatranja je takođe nula, sa varijansom jednakoj nuli. Slika pokazuje linijski dijagram sa procentualnim udelom glavnih komponenti.

. Multivarijantna statistička analiza 3.5 Eigenvalues of correlation matrix Active variables only 3. 34.58% 2.5 Eigenvalue 2..5. 2.% 6.62%.82% 7.89%.5 3.46% 3.26% 2.27%..% -.5-2 3 4 5 6 7 8 9 Eigenvalue number Slika: Procentualni udeo glavnih komponenti u ukupnoj varijansi Prva glavna komponenta obuhvata samo 35% varijacija originalnih podataka i čak četiri glavne komponente su potrebne da bi se obuhvatilo 83% varijacija. Stvar je procene koliko komponenti je važno. Obično se polazi od toga za šta će poslužiti rezultati u daljoj analizi. U ovom primeru, za prikazivanje osnovnih razlika između zemalja biće dovoljno u analizu uključiti prve dve komponente koje zajedno obuhvataju oko 55% varijacija originalnih podataka: AGR,37 MIN,25 MAN,3 PS,22 CON,38 SER, FIN Z,5 3 SPS, 2 TC,42 Vrednosti originalnih varijabli koje se koriste u jednačini su prethodno standardizovane tako da imaju aritmetičku sredinu nula i standradnu devijaciju jedan. Iz jednačine za Z se uočava kontrast između promenljivih AGR i MIN sa jedne strane i ostalih promenljivih sa druge. Druga komponenta iznosi: AGR, MIN,43 MAN, PS,24 CON,4 SER, FIN Z 2,2 55 SPS, 52 TC,5 Ovde se uočava kontrast između varijabli MAN i TC sa jedne i CON, SER i FIN sa druge strane. Slika pokazuje raspored zemalja na osnovu dve glavne komponente i na izuzetno jasan način pokazuje međusobni položaj zemalja.većina zapadnoevropskih zemalja ima male negativne vrednosti za Z i Z 2 dok Gibraltar i Albanija imaju specifičan pristup zapošljavanju.

. Multivarijantna statistička analiza 2 Slika Raspored jedinica posmatranja na osnovu vrednosti dve glavne komponente. Analiza glavnih komponenti u statističkom paketu STATISTICA Razlika između statističkih paketa kada je u pitanju analiza glavnih komponenti je u tome što se kod nekih programa analiza glavnih komponenti nalazi u modulu za faktorsku analizu kao jedan tip faktorske analize, dok je kod drugih programa smeštena u poseban modul, kao što je slučaj i kod programa STATISTICA. Druga razlika je u tome što su promenjeni predznaci koeficijenata u jednačinama za glavne komponente što ne utiče na rezultate analize.

. Multivarijantna statistička analiza 3 Koraci za izvođenje analize u programu su sledeći: Pokretanje analize: Statistics Multivariate Exploratory Technique Principal Components & Classification Analysis Dobija se početni meni za analizu. Definisanje varijabli: Variables Variables for analysis Variables Grouping variable OK Za pokretanje izračunavanja potrebno je izabrati iz početnog menija opciju OK. Dobijanje korelacione matrice: Descriptives Correlation matrix Ajgenvrednosti korelacione matrice: Quick Eigenvalues Skorovi za svaku jedinicu posmatranja Advanced Cases Factor coordinates of cases Grafički prikaz ajgenvrednosti: Variables Scree plot Ajgenvektori (koeficijenti u jednačinama glavnih komponenti): Variables Eigenvectors Koordinate za grafički prikaz jedinica posmatranja u dvodimenzionalnom sistemu sa dve glavne komponente:

. Multivarijantna statistička analiza 4 Cases Factor coordinates of cases Grafički prikaz jedinica posmatranja u dvodimenzionalnom sistemu sa dve glavne komponente: Cases Plot case factor coordinates 2D (označiti prvo opciju Grouping labels da bi ispisao imena jedinica posmatranja) Deskriptivna statistika: Descriptives Summary descriptives