Statistika 2 z računalniško analizo podatkov. Neizpolnjevanje predpostavk regresijskega modela

Similar documents
Analiza variance in linearna regresija

Statistika 2 z računalniško analizo podatkov

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R

modeli regresijske analize nominalnih spremenljivk

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK

Multipla regresija. Iztok Grabnar. Univerza v Ljubljani, Fakulteta za farmacijo

Linearna regresija. Poglavje 4

ENAČBA STANJA VODE IN VODNE PARE

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ekstremne porazdelitve za odvisne spremenljivke

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Univerza na Primorskem FAMNIT, MFI STATISTIKA 2 Seminarska naloga

VAJE 2: Opisna statistika

Reševanje problemov in algoritmi

TOPLJENEC ASOCIIRA LE V VODNI FAZI

Metode raziskovanja. Vzorčenje. Vzorčenje. Raziskovalni proces

Acta Chim. Slov. 2003, 50,

COVARIANCE FUNCTIONS FOR LITTER SIZE IN PIGS USING A RANDOM REGRESSION MODEL

Linearne enačbe. Matrična algebra. Linearne enačbe. Linearne enačbe. Linearne enačbe. Linearne enačbe

Regression ( Kemampuan Individu, Lingkungan kerja dan Motivasi)

LISREL. Mels, G. (2006). LISREL for Windows: Getting Started Guide. Lincolnwood, IL: Scientific Software International, Inc.

UNIVERZA V LJUBLJANI PEDAGOŠKA FAKULTETA POLONA ŠENKINC REŠEVANJE LINEARNIH DIFERENCIALNIH ENAČB DRUGEGA REDA S POMOČJO POTENČNIH VRST DIPLOMSKO DELO

Parametrični in neparametrični pristopi za odkrivanje trenda v časovnih vrstah

Solutions. Name and surname: Instructions

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Ocenjevanje izvozne funkcije za Slovenijo

Biološka ekvivalenca Statistične metode. Iztok Grabnar

Attempt to prepare seasonal weather outlook for Slovenia

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

STATISTIČNE METODE V PEDAGOŠKEM RAZISKOVANJU

Makroekonomija 1: 4. vaje. Igor Feketija

MECHANICAL EFFICIENCY, WORK AND HEAT OUTPUT IN RUNNING UPHILL OR DOWNHILL

EKONOMETRIČNA OCENA PROIZVODNIH FUNKCIJ NA PRIMERU SLOVENSKEGA GRADBENIŠTVA

NAPOVEDOVANJE STEČAJEV PODJETIJ Z LOGIT MODELOM IN DISKRIMINANTNO ANALIZO

Topographic setting, proximity to the rivers and technical factor influence on the well yield of the dolomite aquifers in Slovenia

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. O neeksaknotsti eksaktnega binomskega intervala zaupanja

Regression: Main Ideas Setting: Quantitative outcome with a quantitative explanatory variable. Example, cont.

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Teorija verjetnosti uvod. prof. dr. Jurij Tasič Asistent Emil Plesnik Laboratorij za digitalno obdelavo signalov, slik in videa

36-309/749 Experimental Design for Behavioral and Social Sciences. Sep. 22, 2015 Lecture 4: Linear Regression

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Kvadratne forme nad končnimi obsegi

Multiple Regression. Peerapat Wongchaiwat, Ph.D.

OPTIMIRANJE IZDELOVALNIH PROCESOV

Hipohamiltonovi grafi

OA07 ANNEX 4: SCOPE OF ACCREDITATION IN CALIBRATION

Dejan Petelin. Sprotno učenje modelov na podlagi Gaussovih procesov

Primerjava metod aproksimativnega sklepanja pri izolaciji napak - simulacijska študija

Baroklina nestabilnost

Introduction of Branching Degrees of Octane Isomers

Introduction to Regression

ENERGY AND MASS SPECTROSCOPY OF IONS AND NEUTRALS IN COLD PLASMA

x3,..., Multiple Regression β q α, β 1, β 2, β 3,..., β q in the model can all be estimated by least square estimators

(Received )

Parametric Test. Multiple Linear Regression Spatial Application I: State Homicide Rates Equations taken from Zar, 1984.

Interactions between Binary & Quantitative Predictors

Verifikacija napovedi padavin

Excel. Matjaž Željko

Izboljšanje natančnosti razpoznavanja govora z določanjem njegove aktivnosti na podlagi statističnega modela

Calculation of stress-strain dependence from tensile tests at high temperatures using final shapes of specimen s contours

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Simulation of multilayer coating growth in an industrial magnetron sputtering system

Domen Perc. Implementacija in eksperimentalna analiza tehnike razvrščanja podatkov s konsenzom

Introduction to Regression

Bayesove verjetnostne mreže

Inferenčna statistika

Modeliranje časovnih vrst z metodami teorije informacij

Katastrofalno zaporedje okvar v medsebojno odvisnih omrežjih

ZDRAVLJENJE BOLNICE S VON WILLEBRANDOVO BOLEZNIJO TIPA 3 IN INHIBITORJI

The inductive effect in nitridosilicates and oxysilicates and its effects on 5d energy levels of Ce 3+

NIKJER-NIČELNI PRETOKI

Osnove numerične matematike

Vpliv zadovoljstva zaposlenih na produktivnost v Tiskarni Novo mesto, d.d.

A discussion on multiple regression models

UNIVERZA V MARIBORU FAKULTETA ZA NARAVOSLOVJE IN MATEMATIKO. Oddelek za matematiko in računalništvo DIPLOMSKO DELO

MICROWAVE PLASMAS AT ATMOSPHERIC PRESSURE: NEW THEORETICAL DEVELOPMENTS AND APPLICATIONS IN SURFACE SCIENCE

Matematika 1. Gabrijel Tomšič Bojan Orel Neža Mramor Kosta

D I P L O M S K A N A L O G A

VPLIV POVEČANE KONCENTRACIJE CO 2 NA KOLONIZACIJO KORENIN RASTLIN Z ARBUSKULARNIMI MIKORIZNIMI GLIVAMI

Uporaba preglednic za obdelavo podatkov

ZNANJE MATEMATIKE V TIMSS ADVANCED 2015 IN NA MATURI:

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Kromatično število in kromatični indeks grafa

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE. Verjetnostni algoritmi za testiranje praštevilskosti

THE NUMERICAL SOLUTION OF STRAIN WAVE PROPAGATION IN ELASTICAL HELICAL SPRING

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Statistika 2 Course title: Statistics 2. Študijska smer Study field

Inter Item Correlation Matrix (R )

Problem umetnostne galerije

Analiza oblike in površine stabilograma

Izvedbe hitrega urejanja za CPE in GPE

UNIVERZA V LJUBLJANI FAKULTETA ZA RAČUNALNIŠTVO IN INFORMATIKO ANALIZA PATOLOŠKIH MODELOV MINIMAKSA IN PEARLOVE IGRE

Simple Linear Regression

Aritmetične operacije v logaritemskem številskem sistemu

OFF-LINE NALOGA NAJKRAJŠI SKUPNI NADNIZ

STA 4210 Practise set 2b

Nelinearna regresija. SetOptions Plot, ImageSize 6 72, Frame True, GridLinesStyle Directive Gray, Dashed, Method "GridLinesInFront" True,

Iterativne metode podprostorov 2010/2011 Domače naloge

AKSIOMATSKA KONSTRUKCIJA NARAVNIH

Electric Power-System Inertia Estimation applying WAMS

Acta Chim. Slov. 2000, 47, Macroion-macroion correlations in the presence of divalent counterions. Effects of a simple electrolyte B. Hrib

Single and multiple linear regression analysis

Linearna algebra. Bojan Orel. Univerza v Ljubljani

Orodja za podporo odločanju v kmetijstvu in razvoju podeželja

Transcription:

Statistika 2 z računalniško analizo podatkov Neizpolnjevanje predpostavk regresijskega modela 1

Predpostavke regresijskega modela (ponovitev) V regresijskem modelu navadno privzamemo naslednje pogoje: 1. Člen napake je normalno porazdeljen 2. Člen napake ima pogojno matematično upanje 0 pri vseh vrednostih neodvisnih spremenljivk: E(ε i X 1i,..., X mi ) = 0, za vsak i. 3. Med členi napake ni serijske korelacije: C(ε i, ε j ) = 0, za i j. 4. Homoskedastičnost: D(ε i ) = σ 2, za vsak i. 5. Ničelna kovarianca med členom napake in neodvisnimi spremenljivkami: C(ε i, X ki ) = 0, za vsak i in k = 1,..., m. 2

Predpostavke regresijskega modela (ponovitev) 6. Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti. To pomeni, da nobena od neodvisnih spremenljivk ni linearna kombinacija ene ali več preostalih. Multikolinearnost bi obstajala na primer, če bi veljalo X 1 = 3X 2 2X 3 če pa velja na primer X 2 = X 12, pa o multikolinearnosti ne moremo govoriti, kajti zveza med spremenljivkama ni linearna. 7. Vse neodvisne spremenljivke morajo imeti dovolj različne vrednosti, se pravi morajo biti dovolj razpršene. preverimo porazdelitev 8. Model je pravilno specificiran (nastavljen): Vključene so vse relevantne spremenljivke V modelu niso vključene nerelevantne spremenljivke Uporabljena je pravilna funkcijska zveza med spremenljivkami 3

1-5 Predpostavke o rezidualih (členu napake) (smo že obravnavali pri analizi rezidualov) Metode za analizo smo že obravnavali na predavaju 10 (analiza rezidualov) Preverjanje: Pregled grafikona, kjer damo na y so (standardizirane) reziduale, na x os pa (standardizirane) napovedane vrednosti (to so pravzaprav linearne kombinacije neodvisnih spremenljivk in nam kot kake nadomestijo vrednosti vseh neodvisnih spremenljivk (predpostavke 2 in 4) Histogram rezidualov (predpostavka 1). Pregled grafikona, kjer so na y osi reziduali, na x osi pa zaporedne številke eno (1, 2,..., n) smiselno samo, če je moč enote urediti v nek smiseln vrstni red (recimo po časovnem zaporedju, po anketarjih,...) predpostavka 3 (tega ne nismo/ne bomo delali) SPSS: Glejte predavanje 10 4

1-5 Predpostavke o rezidualih (členu napake) (smo že obravnavali pri analizi rezidualov) V primeru, ko so predpostavke izpolnjene v razsevnem grafikonu: V grafikonu ni mogoče opaziti nobenega pravilnega vzorca porazdeljevanja residualov izpolnjena je predpostavka 2. Variabilnost v rezidualov (os y) je pri vseh vrednostih na x osi približno enaka izpolnjena je predpostavka 4 (o homoskedastičnosti). V grafikonu ni velikih odstopanj od povprečja za majhno število enot (outliers). Ekstremene vrednosti sicer formalno kršijo le predpostavko o normalnosti, a lahko povzročijo velike težave pri ocenjevanju. S histogramom preverimo predpostavko 1, da se reziduali porazdeljujejo približno normalno. 5

1-5 Predpostavke o rezidualih (členu napake) (smo že obravnavali pri analizi rezidualov) Posledice: Ocene standardnih napak niso zanesljive, zato tudi statistični testi niso zanesljivi V primeru heteroskedastičnosti (kršitve predpostavke 4, o homoskedastičnosti), ocene parametrov niso optimalne (imajo večjo varianco oz. standardno napako, kot bi jo lahko imele) 6

1-5 Predpostavke o rezidualih (členu napake) (smo že obravnavali pri analizi rezidualov) Možne rešitve: Če v grafikonu je mogoče opaziti pravilen vzorca porazdeljevanja residualov kršene je predpostavka 2 Kaže na možnost specifikacijske napake (glej prosojnice...) Heteroskedastičnost ali odstopanje od normalne porazdelitve (kršena je predpostavka 1 ali 4 ali obe) Če ne gre za spcifikacijsko napako (najprej razmislimo o tej možnosti), lahko včasih problem rešimo z ustrezno transformacijo odvisne spremenljivke (ne bomo natančneje obravnavali) 7

6 Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti To pomeni, da nobena od neodvisnih spremenljivk ni linearna kombinacija ene ali več preostalih. Popolna multikolinearnost bi obstajala na primer, če bi veljalo npr. X 1 = 3X 2 2X 3. Če pa velja na primer X 2 = X 12, pa o multikolinearnosti ne moremo govoriti, kajti zveza med spremenljivkama ni linearna. Problem multikolinearnost že, ko se približamo (popolni) multikolinearnosti. 8

6 Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti O multikolinearnosti govorimo, kadar velja med neodvisnimi spremenljivkami popolna linearna zveza, torej ko obstajajo taka realna števila λ 1,..., λ m, od katerih vsaj eno ni enako 0, da velja (za vse enote): λ 1 X 1 + λ 2 X 2 + + λ m X m = K, kjer je K neka konstanta Seveda v praksi redko naletimo na primer, ko bi zgornja enačba popolnoma veljala. Vendar nastopijo težave že, ko obstaja visoka stopnja multikolinearnost, torej ko velja λ 1 X 1 + λ 2 X 2 + + λ m X m = v, pri čemer je v nek stohastični člen z majhno varianco. Govorimo torej lahko o nižji ali višji stopnji multikolinearnosti. 9

6 Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti Tipični vzroki za multikolinearnost: v model smo kot neodvisni vključili dve spremenljivki, med katerima obstaja močna linearna povezanost, npr. X 1 = 2X 2 (plus majhna napaka) visoko korelirani so polinomski členi spremenljivke, katere vrednosti so na ozkem intervalu; predeterminiran model: v model smo vključili več spremenljivk, kot je velikost vzorca (ali se samo število spremenljivk približuje velikosti vzorca); drugo. 10

6 Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti Posledice visoke multikolinearnosti: Ocene regresijskih koeficientov imajo velike standardne napake, kar otežuje statistično sklepanje. Posledično os ocene regresijskih koeficientov statistično neznačilno različne od 0 in njihovi intervali zelo široki. Intervali zaupanja za regresijske ocene so zelo široki, torej so ocene nenatančne. Ocene parametrov so močno občutljive na majhne spremembe podatkov (če recimo dodamo ali izpustimo eno običajno enoto) in zato nezanesljive. Vse omenjene posledice so bolj izražene pri majhnih vzorcih! 11

6 Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti Ugotavljanje multikolinernosti s programom SPSS: V oknu Linear Regression izberemo v podoknu Statistics (dobimo ga s klikom na gumb Statistics) dodatno še Collinearity diagnostics in v okvirčku Regression Coefficients še Covariance matrix 12

6 Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti Nekateri indikatorji multikolinearnosti: Zelo značilen (majhna stopnja značilnosti) pri F-testu za skupno značilnost modela (tabela ANOVA), a izrazito nenatančilni (velike stopnje značilnosti) t-testi za regresijske koeficiente (tabela Coefficients). Nakazujejo samo, da obstaja problem multikolinarnosti, ne pa tudi kje (med katerimi neodvisnimi spremenljivkami) Nizke tolerance (tabela Coefficients). Toleranca pomeni delež variabilnosti neodvisne spremenljivke, ki je neodvisen od ostalih neodvisnih spremenljivk. Majhne vrednosti tolerance so blizu 0,1, kar pomeni, da je delež variabilnosti dane spremenljivke, ki je pojasnjen s preostalimi spremenljivkami 0,9. Spremenljivke, pri katerih je toleranca majhna, so v močno linearno povezane z vsaj nekaterimi ostalimi neodvisnimi spremenljivkami. Razmisliti je potrebno o izključitvi ali zamenjavi kakšne od teh spremenljivk 13

6 Med neodvisnimi spremenljivkami ni popolne kolinearnosti ali multiple kolinearnosti Nekateri indikatorji multikolinearnosti: Visoke vrednosti (nad 30) indeksa pogojnosti ( condition index, tabela Collinearity Diagnostics), ki pomeni kvadratni koren razmerje med največjo in najmanjšo lastno vrednostjo korelacijske matrike vektorja neodvisnih spremenljivk, ter/ali lastne vrednosti blizu 0 ( eigenvalues, tabela Collinearity Diagnostics). Nakazujejo samo, da obstaja problem multikolinarnosti, ne pa tudi kje (med katerimi neodvisnimi spremenljivkami) Visoke korelacije (nad 0,9) med (lahko samo nekaterimi) ocenami regresijskih koeficientov (tabela Coefficient Correlations). Ocene regresijskih koeficietnov, med katerimi je močna korelacija, so zelo močno povezane (če se spremeni ena, se spremeni tudi druga). Razmisliti je potrebno o izključitvi ali zamenjavi kakšne od teh spremenljivk. 14

6 Ugotavljanje multikolinearnosti - primer Uporabili bomo umetne podatke multikolinearnost.sav. Notri imamo spremenljivke: x1 prva neodvisna spremenljivka x2 druga neodvisna spremenljivka x12 spremenljivka, izračunana kot x12 = x1 + x2 + err (majhna napaka) Spremenljivka x12 je skoraj popolna linearna kombinacija spremenljivk x1 in x2. y neodvisna spremenljivka, kjer je pravilen model y = 100 + 2*x1-0.5*x2 + e (napaka) Ocenimo dva modela: y = β 0 + β 1 x1 + β 2 x2 + ε (ni multikolinearnosti) y = β 0 + β 1 x1 + β 2 x2 + β 3 x12 + ε (multikolinearnost je) 15

6 Ugotavljanje multikolinearnosti - primer Zahtevamo linearno regresijo kot običajno (Analyze Regresion Linear). Za 1. model v polje Dependent prenesemo odvisno spremenljivko y, v polje Independents pa spremenljivki x1 in x2. Za 2. model v polje Independents poleg spremneljivk x1 in x2 dodamo še spremenljivko x12. V oknu Linear Regression izberemo v podoknu Statistics (dobimo ga s klikom na gumb Statistics) dodatno še Collinearity diagnostics in v okvirčku Regression Coefficients še Covariance matrix 16

6 Ugotavljanje multikolinearnosti primer 1. model (ni multikolinearnosti) Model 1 Regress ion Res idual Total ANOVA b Sum of Squares df Mean Square F Sig. 48673,225 2 24336,613 237,064,000 a 9957,863 97 102,658 58631,088 99 a. Predictors: (Constant), x2, x1 b. Dependent Variable: y Model 1 (Constant) x1 x2 a. Dependent Variable: y Uns tandardized Coeff icients Coefficients a Standardized Coeff icients Collinearity Stat istics B Std. Error Beta t Sig. Toleranc e VIF 99, 785 11, 125 8, 969,000 1, 913,100,800 19, 106,000,999 1, 001 -, 480,049 -, 409-9,761,000,999 1, 001 Rezultati F-testa in t-testov se ujemajo (oboji so močno značilni) Toleranci sta visoki (blizu 1) 17

6 Ugotavljanje multikolinearnosti primer 1. model (ni multikolinearnosti) Coefficient Correlations a Model 1 Correlat ions Cov ariances x2 x1 x2 x1 a. Dependent Variable: y x2 x1 1, 000,035,035 1, 000,002,000,000,010 Korelacije med regresijskima koeficeintoma (za spremenljivki x1 in x2) so šibke (blizu 0). 18

6 Ugotavljanje multikolinearnosti primer 1. model (ni multikolinearnosti) Colli nearity Diagnostics a Model 1 Dimension 1 2 3 a. Dependent Variable: y Condition Variance Proport ions Eigenv alue Index (Constant) x1 x2 2, 964 1, 000,00,00,00,031 9, 801,03,89,08,005 24, 718,97,10,91 Indeks pogojnosti ni zelo velik (pod 30), čeprav je že kar znaten. Najmanjša lastna vrednost ni skoraj 0. 19

6 Ugotavljanje multikolinearnosti primer 2. model (multikolinearnost je) Model 1 Model 1 Regress ion Res idual Total ANOVA b Sum of Squares df Mean Square F Sig. 48673,233 3 16224,411 156,414,000 a 9957,855 96 103,728 58631,088 99 a. Predictors: (Constant), x12, x1, x2 b. Dependent Variable: y Coefficients a (Constant) x1 x2 x12 a. Dependent Variable: y Uns tandardized Coeff icients Standardized Coeff icients Collinearity Stat istics B Std. Error Beta t Sig. Toleranc e VIF 99, 766 11, 394 8, 756,000 1, 903 1, 137,796 1, 673,098,008 127,852 -, 490 1, 129 -, 417 -, 434,665,002 523,123,010 1, 136,010,009,993,002 631,749 Rezultati F-testa in t-testov se ne ujemajo (Ftest je značilen, t-testi pa niso) Tolerance so nizke (blizu 0) 20

6 Ugotavljanje multikolinearnosti primer 2. model (multikolinearnost je) Coefficient Correlations a Model 1 Correlat ions Cov ariances x12 x1 x2 x12 x1 x2 a. Dependent Variable: y x12 x1 x2 1,000 -,996 -,999 -, 996 1, 000,995 -, 999,995 1, 000 1, 292-1,287-1,282-1,287 1, 293 1, 278-1,282 1, 278 1, 274 Korelacije med regresijskimi koeficienti (za spremenljivke x1, x2 in x12) so zelo močne (velike, po absolutni vrednosti blizu 1) 21

6 Ugotavljanje multikolinearnosti primer 2. model (multikolinearnost je) Colli nearity Diagnostics a Model 1 Dimension 1 2 3 4 a. Dependent Variable: y Condition Variance Proport ions Eigenv alue Index (Constant) x1 x2 x12 3, 962 1, 000,00,00,00,00,032 11, 088,01,01,00,00,006 26, 066,96,00,00,00 7, 72E-006 716,217,03,99 1, 00 1, 00 Indeks pogojnosti je ogromen (močno nad 30) Najmanjša lastna vrednost je skoraj 0. 22

8 Model je pravilno specificiran (nastavljen) Možne kršitve te predpostavke so: V modelu manjka relevantna spremenljivka V model je vključena nerelevantna spremenljivke Uporabljena je napačna funkcijska zveza med spremenljivkami Specifikacijska napaka je navadno posledica slabe teoretične osnove modela. Že pred izvedbo raziskave je namreč potrebno teoretično opredeliti vse relevantne vplive na pojav, ki ga proučujemo. V nasprotnem primeru dobimo kot rezultat regresijske analize morda navidezno dobre ocene, ki pa so zaradi napačnega modela zavajajoče. 23

8 Posledice specifikacijskih napak manjkajoča relevantna spremenljivka To pomeni, da smo npr. namesto pravilnega modela: Y = β 0 + β 1 X 1 + β 2 X 2 + e izbrali (ocenili) model Y = α 0 + α 1 X 1 + u Če sta spremenljivkix 1 in X 2 korelirani (kar navadno sta), to pomeni, da se bo koeficient α 1 razlikoval od prave vrednosti β 1 in s tem bo ocena vpliva spremenljivke X 1 na odvisno spremenljivko zavajajoča. Ne glede na to, ali sta spremenljivki korelirani ali ne, bomo dobili napačno oceno koeficienta α 0. Manjša pojasnjevalna moč modela (manjši R 2 ) in posledično manj natančne napovedi vrednosti odvisne spremenljivke. Napako je zelo težko odkriti. Zato je potrebno pred analizo pozorno preučiti teorijo o pojavu, ki ga preučujemo. 24

8 Posledice specifikacijskih napak vključena nerelevanta spremenljivka Posledice načeloma niso tako hude. Tako napačno specifikacijo pa tudi hitro opazimo iz neznačilnih t vrednosti. Toda napačno bi bilo vključevati v model spremenljivke brez kakršne koli teoretične osnove. S tem namreč zmanjšujemo učinkovitost ocen parametrov in povečujemo možnost multikolinearnosti. POZOR: Prav tako ni dobro izključevati spremenljivk zgolj na podlagi t-testov. Spremenljivko izključimo le, če je to teoretično smiselno, drugače pa le, če je nujno (premajhen vzorec, prevelika multikolinearnost,...) 25

8 Posledice specifikacijskih napak napačna funkcijska zveza Indikatorji: Nepravilna porazdelitev rezidualov (glej prejšnje točke 1-5 in predavanje 10). Popravek: Poskušamo ugotoviti pravo obliko funkcije (predavanje 9) Posledice: Napačni sklepi (o vrsti povezanosti med spremenljivkama, moči povezanosti, ). 26

Standardizirani reziduali -2-1 0 1 2 Frequency 0 5 10 15 20 25 1-5 Predpostavke o rezidualih /specifikacijske napake Vse predpostavke izpolnjene -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Standardizirane nalovedane vrednosti -3-2 -1 0 1 2 Standardizirani reziduali 27

Standardizirani reziduali -1.5-1.0-0.5 0.0 0.5 1.0 1.5 2.0 Frequency 0 5 10 15 20 1-5 Predpostavke o rezidualih /specifikacijske napake Nenormalna porazdelitev rezidualov -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Standardizirane nalovedane vrednosti -2-1 0 1 2 Standardizirani reziduali 28

Standardizirani reziduali -3-2 -1 0 1 2 3 Frequency 0 10 20 30 40 1-5 Predpostavke o rezidualih /specifikacijske napake Heteroskedastičnost -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Standardizirane nalovedane vrednosti -3-2 -1 0 1 2 3 Standardizirani reziduali 29

Standardizirani reziduali -2-1 0 1 2 Frequency 0 5 10 15 20 1-5 Predpostavke o rezidualih /specifikacijske napake Manjkajoča relevantna spremenljivka -2-1 0 1 2 Standardizirane nalovedane vrednosti -2-1 0 1 2 Standardizirani reziduali 30

Standardizirani reziduali -2-1 0 1 2 3 Frequency 0 10 20 30 40 1-5 Predpostavke o rezidualih /specifikacijske napake Nelinearna zveza -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Standardizirane nalovedane vrednosti -3-2 -1 0 1 2 3 4 Standardizirani reziduali 31

Standardizirani reziduali -2-1 0 1 2 Frequency 0 5 10 15 20 1-5 Predpostavke o rezidualih /specifikacijske napake Serijska avto-korelacija napak -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Standardizirane nalovedane vrednosti -2-1 0 1 2 3 Standardizirani reziduali 32

Standardizirani reziduali -2-1 0 1 2 1-5 Predpostavke o rezidualih /specifikacijske napake Serijska avto-korelacija napak 0 20 40 60 80 100 Index 33