Sveučilište Jurja Dobrile u Puli Odjel za ekonomiju i turizam Dr. Mijo Mirković. Alen Belullo UVOD U EKONOMETRIJU

Similar documents
TEORIJA SKUPOVA Zadaci

LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

Mathcad sa algoritmima

GENERALIZIRANI LINEARNI MODELI. PROPENSITY SCORE MATCHING.

Uvod u relacione baze podataka

Metode izračunavanja determinanti matrica n-tog reda

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

Algoritam za množenje ulančanih matrica. Alen Kosanović Prirodoslovno-matematički fakultet Matematički odsjek

Red veze za benzen. Slika 1.

Projektovanje paralelnih algoritama II

KLASIFIKACIJA NAIVNI BAJES. NIKOLA MILIKIĆ URL:

Fajl koji je korišćen može se naći na

Metoda parcijalnih najmanjih kvadrata: Regresijski model

Funkcijske jednadºbe

Metode praćenja planova

Procjena funkcije gustoće

Geometrijski smisao rješenja sustava od tri linearne jednadžbe s tri nepoznanice

Rešenja zadataka za vežbu na relacionoj algebri i relacionom računu

Simetrične matrice, kvadratne forme i matrične norme

Slika 1. Slika 2. Da ne bismo stalno izbacivali elemente iz skupa, mi ćemo napraviti još jedan niz markirano, gde će

Ivan Soldo. Sažetak. U članku se analiziraju različiti načini množenja matrica. Svaki od njih ilustriran je primjerom.

KRITERIJI KOMPLEKSNOSTI ZA K-MEANS ALGORITAM

NAPREDNI FIZIČKI PRAKTIKUM 1 studij Matematika i fizika; smjer nastavnički MJERENJE MALIH OTPORA

Hornerov algoritam i primjene

KVADRATNE INTERPOLACIJSKE METODE ZA JEDNODIMENZIONALNU BEZUVJETNU LOKALNU OPTIMIZACIJU 1

Formule za udaljenost točke do pravca u ravnini, u smislu lp - udaljenosti math.e Vol 28.

pretraživanje teksta Knuth-Morris-Pratt algoritam

Karakteri konačnih Abelovih grupa

NIZOVI I REDOVI FUNKCIJA

STACIONARNOST GARCH PROCESA I PRIMJENE

Šime Šuljić. Funkcije. Zadavanje funkcije i područje definicije. š2004š 1

ANALIZA VARIJANCE PONOVLJENIH MJERENJA

ANALYSIS OF THE RELIABILITY OF THE "ALTERNATOR- ALTERNATOR BELT" SYSTEM

Quasi-Newtonove metode

Nilpotentni operatori i matrice

χ 2 -test i Kolmogorov-Smirnovljev test

Matematika (PITUP) Prof.dr.sc. Blaženka Divjak. Matematika (PITUP) FOI, Varaždin

Ariana Trstenjak Kvadratne forme

ATOMSKA APSORP SORPCIJSKA TROSKOP

The Prediction of. Key words: LD converter, slopping, acoustic pressure, Fourier transformation, prediction, evaluation

1. zadatak. Stupcasti dijagram podataka: F:\STATISTICKI_PRAKTIKUM\1.KOLOKVIJ. . l_od_theta.m poisson.m test.doc.. podaci.dat rjesenja.

PRIMJENA LINEARNOGA PROGRAMIRANJA NA PROBLEME PROMIDŽBE. Diplomski rad

Sveučilište Josipa Jurja Strossmayera u Osijeku Odjel za matematiku

VIŠESTRUKO USPOREĐIVANJE

Shear Modulus and Shear Strength Evaluation of Solid Wood by a Modified ISO Square-Plate Twist Method

Mirela Nogolica Norme Završni rad

Optimizacija Niza Čerenkovljevih teleskopa (CTA) pomoću Monte Carlo simulacija

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku

COMPARISON OF LINEAR SEAKEEPING TOOLS FOR CONTAINERSHIPS USPOREDBA PROGRAMSKIH ALATA ZA LINEARNU ANALIZU POMORSTVENOSTI KONTEJNERSKIH BRODOVA

Linearno programiranje i primjene

Vektori u ravnini i prostoru. Rudolf Scitovski, Ivan Vazler. 10. svibnja Uvod 1

THE ROLE OF SINGULAR VALUES OF MEASURED FREQUENCY RESPONSE FUNCTION MATRIX IN MODAL DAMPING ESTIMATION (PART II: INVESTIGATIONS)

Zadatci sa ciklusima. Zadatak1: Sastaviti progra koji određuje z ir prvih prirod ih rojeva.

PRIRODOSLOVNO MATEMATIČKI FAKULTET MATEMATIČKI ODSJEK. Marina Zrno KOMUTATIVNI PRSTENI. Diplomski rad. Voditelj rada: prof.dr.sc.

PEARSONOV r koeficijent korelacije [ ]

BROWNOV MOST I KOLMOGOROV-SMIRNOVLJEVA STATISTIKA

Tina Drašinac. Cramerovo pravilo. Završni rad

Fibonaccijev brojevni sustav

Matrice traga nula math.e Vol. 26. math.e. Hrvatski matematički elektronički časopis. Matrice traga nula. komutator linearna algebra. Sažetak.

Neprekidan slučajan vektor

Oracle Spatial Koordinatni sustavi, projekcije i transformacije. Dalibor Kušić, mag. ing. listopad 2010.

Harun Kuč : Statistika u Excelu. Izdavač : Weling SD Zenica Za izdavača : Damir Bajramović. Recenzenti : Dr. Hasan Zolić Dr.

UNSTABILITY OF FOOD PRODUCTION PER CAPITA AND POPULATION: ASIA. Vesna Jablanović 1

NIPP. Implementing rules for metadata. Ivica Skender NSDI Working group for technical standards.

Testiranje statističkih hipoteza

ANALYSIS OF INFLUENCE OF PARAMETERS ON TRANSFER FUNCTIONS OF APERIODIC MECHANISMS UDC Života Živković, Miloš Milošević, Ivan Ivanov

ODREĐIVANJE DINAMIČKOG ODZIVA MEHANIČKOG SUSTAVA METODOM RUNGE-KUTTA

Strojno učenje 3 (II dio) Struktura metoda/algoritama strojnog učenja. Tomislav Šmuc

Proces Drella i Yana i potraga za te²kim esticama na hadronskim sudariva ima

MONTHLY REPORT ON WIND POWER PLANT GENERATION IN CROATIA

Prsten cijelih brojeva

Linearni operatori u ravnini

UPUTE ZA OBLIKOVANJE DIPLOMSKOG RADA

Sveučilište u Zagrebu Fakultet prometnih znanosti Diplomski studij. Umjetna inteligencija - Genetski algoritmi 47895/47816 UMINTELI HG/

Krivulja središta i krivulja fokusa u pramenu konika. konika zadanom pomoću dviju dvostrukih točaka u izotropnoj ravnini

DETALJNI IZVEDBENI NASTAVNI PLAN PREDMETA

Product Function Matrix and its Request Model

Strojno učenje. Metoda potpornih vektora (SVM Support Vector Machines) Tomislav Šmuc

Mersenneovi i savršeni brojevi

Teorem o reziduumima i primjene. Završni rad

MATHEMATICAL ANALYSIS OF PERFORMANCE OF A VIBRATORY BOWL FEEDER FOR FEEDING BOTTLE CAPS

Vedska matematika. Marija Miloloža

STATISTICAL ANALYSIS OF WET AND DRY SPELLS IN CROATIA BY THE BINARY DARMA (1,1) MODEL

Strojno učenje. Metoda potpornih vektora (SVM Support Vector Machines) Tomislav Šmuc

REVIEW OF GAMMA FUNCTIONS IN ACCUMULATED FATIGUE DAMAGE ASSESSMENT OF SHIP STRUCTURES

AIR CURTAINS VAZDU[NE ZAVESE V H

Iskazna logika 1. Matematička logika u računarstvu. oktobar 2012

BAZE PODATAKA Predavanje 03

Nelder Meadova metoda: lokalna metoda direktne bezuvjetne optimizacije

Cyclical Surfaces Created by a Conical Helix

Turingovi strojevi Opis Turingovog stroja Odluµcivost logike prvog reda. Lipanj Odluµcivost i izraµcunljivost

PRECIPITATION FORECAST USING STATISTICAL APPROACHES UDC 55:311.3

FIZIKALNA KOZMOLOGIJA VII. VRLO RANI SVEMIR & INFLACIJA

ALGORITAM FAKTORIZACIJE GNFS

ALGORITMI PODIJELI PA VLADAJ

HRVATSKA MATEMATIČKA OLIMPIJADA

Strojno učenje 3 (I dio) Evaluacija modela. Tomislav Šmuc

Ksenija Doroslovački KOMBINATORIKA INTERPRETIRANA FUNKCIJAMA I NJIHOVIM OSOBINAMA MASTER RAD. NOVI SAD jun 2008

Transcription:

Sveučilište Jurja Dobrile u Puli Odjel za ekonomiju i turizam Dr. Mijo Mirković Alen Belullo UVOD U EKONOMETRIJU

Sveučilište Jurja Dobrile u Puli Odjel za ekonomiju i turizam Dr. Mijo Mirković UVOD U EKONOMETRIJU Sveučilišni udžbenik Autor: Doc. dr. sc. Alen Belullo

Copyright Belullo, Alen Nakladnik: Sveučilište Jurja Dobrile u Puli Odjel za ekonomiju i turizam Dr. Mijo Mirković Za nakladnika: Prof. dr. sc. Robert Matijašić, rektor Recenzenti: Dr. sc. Goran Buturac Prof. dr. sc. Ante Rozga Lektura: Marija Belullo, prof. Objavljivanje ove knjige odobrio je Senat Sveučilišta Jurja Dobrile u Puli odlukom Klasa: 003-08/11-02/70-01, Ur. broj: 380/11-01/-1 od 15. prosinca 2011. godine sukladno Zaključku Povjerenstva za izdavačku djelatnost Sveučilišta Jurja Dobrile u Puli od 28. studenog 2011. godine. UVOD U EKONOMETRIJU/ Alen Belullo. Pula: Sveučilište Jurja Dobrile u Puli, Odjel za ekonomiju i turizam Dr. Mijo Mirković, 2011. Bibliografija. ISBN 978-953-7498-50-4 1. Belullo, A.

Sadrµzaj Predgovor iii 1 Uvod u regresijsku analizu 1 1.1 Pojam ekonometrije....................... 1 1.2 Koraci u ekonometrijskoj analizi................ 2 1.2.1 Odre ivanje teorije ili hipoteze............. 2 1.2.2 Speci kacija matematiµckog modela........... 2 1.2.3 Speci kacija ekonometrijskog modela.......... 3 1.2.4 Prikupljanje podataka.................. 5 1.2.5 Procjena ekonometrijskog modela............ 9 1.2.6 Testiranje hipoteza.................... 10 1.2.7 Prognoziranje i predvi anje............... 10 1.3 Regresijska funkcija populacije i regresijska funkcija uzorka. 11 2 Parametri modela dobiveni metodom najmanjih kvadrata 18 2.1 Procjena parametara....................... 18 2.2 Svojstva regresijskog pravca................... 26 2.3 Svojstva procjenitelja...................... 28 3 Pokazatelji kvalitete regresije 32 3.1 Koe cijent determinacije..................... 33 3.2 Znaµcajnost procjenitelja..................... 39 3.2.1 Standardna greška procjenitelja............. 39 3.2.2 Testiranje hipoteza nad procjeniteljima........ 42 A Izvodi i dokazi 57 A.1 Izvod parametara modela s jednom nezavisnom varijablom metodom najmanjih kvadrata.................. 57 B Matematika 59 B.1 Neka svojstva operatora zbrajanja P.............. 59 i

C Statistika 61 C.1 Distribucije vjerojatnosti izvedene iz normalne distribucije.. 61 D Podaci 62 D.1................................... 62 E Statistiµcke tablice 63 ii

Predgovor Ovaj udµzbenik nastaje iz potrebe da studenti lakše shvate teorijske pretpostavke na kojima se temelji metoda najmanjih kvadrata. Cilj je bio napisati rad koji polazi od osnovnih ekonometrijskih pojmova, tj. namijenjen je µcitatelju koji nema nikakvog predznanja iz tog podruµcja, ali je ipak pisan u strogoj matematiµckoj formi, kako bi se izbjegle zamke nedoreµcenosti, u koje upadaju mnogi udµzbenici iz ekonometrije, pisani za poµcetnu razinu. Kako ne bi prosjeµcnom µcitatelju opterećivali tekst sloµzeniji matematiµcki dokazi i osnove teorije distribucije vjerojatnosti, dani su u dodacima. Matematiµcka notacija konzistentna je kroz cijeli rad (npr. populacijske vrijednosti su uvijek oznaµcene grµckim alfabetom, dok vrijednosti uzoraka uvijek latinskom abecedom, velikim podebljanim slovima oznaµcene su matrice, malim podebljanim slovima vektori, nepodebljani izrazi su skalari, varijable u devijacijskoj formi su uvijek prikazane tildom itd.). U knjizi se nadalje, zbog potreba poopćavanja, paralelno koristi obiµcna algebra, karakteristiµcna za poµcetniµcke udµzbenika, i matriµcna algebra, karakteristiµcna za napredne udµzbenike iz ekonometrije. Na taj se naµcin pokušao premostiti jaz, koji postoji izme u poµcetnih udµzbenika i naprednih udµzbenika iz ekonometrije, tj. da se zorno prikaµze na koji se naµcin mogu poopćiti «obiµcne» jednadµzbe kojima se prikazuju jednostavniji modeli (npr. modeli s jednom nezavisnom varijablom) putem matriµcnog zapisa istih ekonometrijskih izraza koji vrijede za sloµzenije modele (npr. s k 1 nezavisnih varijabli). Na taj se naµcin moµze dobiti dojam elegancije i kompaktnosti matriµcnog zapisa, a korištenjem matriµcno orijentiranih softwarea brzo i e kasno rješavati zadatke prikazane u knjizi. U knjizi su prikazani mnogobrojni primjeri i zadaci te su dani svi podaci potrebni µcitatelju da bi mogao sam jednostavno reproducirati prikazane dobivene rezultate. Osim studentima, koji slušaju predmet Ekonometrija, Analiza vremenskih nizova, Ekonometrija II, namijenjen je i istraµzivaµcima koji µzele dobiti µcvrste temelje, kako bi shvatili samu bit regresijske analize pomoću metode najmanjih kvadrata. Što se tiµce potrebnog predznanja, da bi se knjiga mogla lako µcitati, potrebno je samo osnovno znanje iz matriµcne algebre. Knjiga je podijeljena u tri poglavlja: u prvom dijelu objašnjava se poiii

jam ekonometrije, koraci u ekonometrijskoj analizi te regresijska funkcija populacije i uzorka; u drugom dijelu objašnjava se na koji se naµcin dobivaju parametri metodom najmanjih kvadrata, svojstva regresijskog pravaca i procjenitelja, da bi se u zadnjem dijelu prikazali pokazatelji kvalitete regresije. Budući da je ova knjiga proizašla iz dijelova priprema za predavanja iz predmeta Ekonometrija µzelio bih se zahvaliti svim studentima koji su svojim komentarima i pitanjima tijekom predavanja doprinijeli da se knjiga pribliµzi njihovim potrebama i boljem razumijevanju gradiva, kao i svim onim studentima koji su uspješno detektirali tiskarske greške u radnim verzijama ovog rada, jer sam svjestan da je rat s tiskarskim greškama bespovratno izgubljen, ali poneka je bitka dobivena, zahvaljujući njima. Nadalje, posebno bih se zahvalio profesorici Mariji Bušelić i Sanji Blaµzević koje su svojom beskrajnom upornošću i altruizmom doprinijele da ova knjiga uopće ugleda svjetlost dana. Za tehniµcku podršku zahvalio bih se Ðaniju Buriću. Na kraju volio bih reći jedno veliko hvala bliµzim µclanovima moje obitelji na njihovim sugestijama i lekturi, te za uvijek prisutnu podršku kada su s dubokim razumijevanjem µcesto morali podnositi moja prevrtljiva raspoloµzenja tijekom njezinog nastajanja. iv

Poglavlje 1 Uvod u regresijsku analizu 1.1 Pojam ekonometrije Ekonometrija doslovno znaµci ekonomsko mjerenje. Ekonometriju moµzemo de nirati kao znanstvenu disciplinu koja se bavi empiriµckim dokazivanjem ekonomskih zakona de niranih u ekonomskoj teoriji. Usko je vezana uz discipline: ekonomska teorija, matematiµcka ekonomija i ekonomska statistika. Ekonomska teorija postavlja svoje zakone uglavnom na kvalitativnoj razini, tj. odre uje smjer kretanja zavisnosti odre enih ekonomskih pojava, bez odre ivanja veliµcine i znaµcajnosti tih veza. Matematiµcka ekonomija izraµzava ekonomsku teoriju u odre enoj matematiµckoj formi (jednadµzbe), bez osvrtanja na empiriµcku provjeru tih teorija. Ekonomska statistika bavi se prikupljanjem, obradom i prezentiranjem ekonomskih pokazatelja u obliku tablica i slika. Ekonomska statistika ne bavi se provjerom ekonomskih teorija na temelju tako prikupljenih podataka. Znaµci, ekonometrijom se provjeravaju, koristeći se metodama matematiµcke ekonomije i podacima dobivenim iz statistike, jesu li valjane ekonomske teorije za odre eni uzorak (populaciju). Ekonometriju moµzemo podijeliti u dvije glavne skupine: teorijska ekonometrija i primijenjena ekonometrija. Teorijska ekonometrija bavi se razvijanjem ekonometrijskih metoda, dok se primijenjena ekonometrija bavi primjenjivanjem ekonometrijskih metoda koje je razvila teorijska ekonometrija na konkretnim ekonomskim problemima. Teorijska i primijenjena ekonometrija mogu koristiti ili Bayesov ili klasiµcni pristup statistiµckom zakljuµcivanju. Glavna je razlika izme u ova dva pristupa u njihovom poimanju vjerojatnosti. Po Bayesovom pristupu vjerojatnost se odnosi na stupanj razumno prihvatljivog uvjerenja; vjerojatnost je vezana za stupnjeve pouzdanosti koje istraµzivaµc unaprijed ima o nekom empiriµckom fenomenu (prije samog promatranja podataka). Drugim rijeµcima po Bayesu imamo subjektivni pristup konceptu vjerojatnosti. Po klasiµcnom 1

pristupu vjerojatnost se odnosi na frekvenciju pojavljivanja odre enog doga aja u ponovljenim izvlaµcenjima, ili imamo objektivni pristup konceptu vjerojatnosti. 1.2 Koraci u ekonometrijskoj analizi Ekonometrijska analiza slijedi odre en put, a to je: 1. Odre ivanje teorije ili hipoteze 2. Speci kacija matematiµckog modela 3. Speci kacija ekonometrijskog modela 4. Prikupljanje podataka 5. Procjena ekonometrijskog modela 6. Testiranje hipoteza 7. Predvi anje i prognoziranje 1.2.1 Odre ivanje teorije ili hipoteze Svoje teorije i hipoteze ekonometrija uglavnom preuzima, kao što smo rekli, iz ekonomske teorije. Tako je npr., J. M. Keynes rekao da ako se raspoloµziv dohodak stanovništva poveća, tada će se, uz ostale nepromijenjene uvjete, povećati potrošnja stanovništva, ali za manje od povećanja raspoloµzivog dohotka. Ne govori nam ništa u prilog tome koliko će se potrošnja povećati za jediniµcno povećanje raspoloµzivog dohotka, već nam govori samo o smjeru zavisnog kretanja tih varijabli i da je graniµcna sklonost potrošnji stanovništva izme u 0 i 1. 1.2.2 Speci kacija matematiµckog modela Iako je Keynes pretpostavio pozitivnu vezu izme u potrošnje i raspoloµzivog dohotka, nije speci cirao precizni oblik funkcionalne veze izme u tih varijabli. Matematiµcka ekonomija sugerira sljedeću funkcionalnu formu: gdje: y = potrošnja x = raspoloµziv dohodak 0 = autonomna potrošnja 1 = graniµcna sklonost potrošnji y = 0 + 1 x 0 < 1 < 1 (1.1) 2

y y = β + 1x 0 β Potrošnja 1 β 1 β 0 Raspoloživ dohodak x Slika 1.1: Deterministiµcki model Jednadµzba (1.1) govori nam da je potrošnja linearno ovisna o dohotku jer imamo linearnu funkciju (polinom prvog stupnja). To je matematiµcki model izme u potrošnje i dohotka koji se u ekonomiji zove funkcija potrošnje. Općenito modelom zovemo skup matematiµckih jednadµzbi. Jednadµzbe ne moraju biti linearne već mogu poprimiti razliµcite funkcionalne forme (logaritamske, eksponencijalne, itd.). U prikazanom sluµcaju model µcini samo jedna linearna jednadµzba. y i x zovemo varijablama modela. Varijablu x, koja ne ovisi o drugim varijablama u modelu, zovemo nezavisnom ili egzogenom varijablom, dok varijablu y, koja u našem sluµcaju ovisi o varijabli x zovemo zavisnom ili endogenom varijablom. 0 i 1 zovu se parametri ili koe cijenti modela. O vrijednostima parametara ovisi izgled funkcije. 0 odre uje odsjeµcak na ordinati, koji se u ekonomiji interpretira kao autonomna potrošnja, dok 1 odre uje nagib ili smjer funkcije, što se u ekonomiji interpretira kao graniµcna sklonost potrošnji. 1.2.3 Speci kacija ekonometrijskog modela Jednadµzba 1.1 prikazuje egzaktnu ili deterministiµcku vezu izme u varijable x i varijable y. Me utim, veze izme u ekonomskih varijabli uglavnom nisu egzaktne stoga se pojavljuje potreba za ukljuµcivanjem stohastiµckog elementa " u matematiµcki model. Ukljuµcivanjem stohastiµckog elementa " matematiµcki se model 1.1 pretvara u ekonometrijski (stohastiµcki) mo- 3

del: y = 0 + 1 x + " 0 < 1 < 1: (1.2) Stohastiµcki element " zovemo i sluµcajno odstupanje, sluµcajna greška ili rezidual. y y = β + 1x 0 β Potrošnja + ε ε Raspoloživ dohodak x Slika 1.2: Ekonometrijski model Na Slici 1.2 prikazan je ekonometrijski model funkcije potrošnje. Iz Slike 1.2 vidimo da svaku toµcku moµzemo odrediti deterministiµckim dijelom y = 0 + 1 x kojemu dodajemo sluµcajno odstupanje ". Sluµcajno odstupanje moµze biti pozitivno (iznad pravca) ili negativno (ispod pravca). Sluµcajno odstupanje preuzima na sebe vrijednosti svih varijabli koje su izostavljene iz modela, a koje utjeµcu na ponašanje y i greške koje se pojavljuju uslijed krive funkcionalne forme. Moµzemo reći da se sluµcajna greška " pojavljuje zbog: 1. Neodre enosti teorije: ekonomska teorija teµzi pojednostavljivanju stvarnog svijeta i stoga u teorijske modele ne ulaze sve varijable koje bi mogle utjecati na y, već samo one koje se smatraju vaµznijima, kako bi se ekonomski modeli zadrµzali jednostavnima. 2. Nedostupnosti podataka: npr. moµzemo smatrati da na potrošnju pojedinaca utjeµce, osim njihovog raspoloµzivog dohotka, i njihovo bogatstvo. Dok je raspoloµziv dohodak dostupna informacija, bogatstvo je µcesto nedostupan podatak. 4

3. Manje vaµznih varijabli: pretpostavimo da, osim raspoloµzivog dohotka, na potrošnju utjeµcu i sljedeće varijable: broj djece, spol, vjera, obrazovanje i zemljopisni poloµzaj. Moguće je pretpostaviti da je njihov utjecaj na potrošnju slab, nesustavan i stoga sluµcajan. Stoga se iz praktiµcnih razloga te varijable izostavljaju, a njihov zajedniµcki utjecaj na zavisnu varijablu y ulazi u sluµcajnu grešku ". 4. Sluµcajnosti koje su svojstvene ljudskom ponašanju: kada bismo i uspjeli ukljuµciti u model sve relevantne varijable, uvijek postoji u ponašanju pojedinca odre ena doza sluµcajnosti koja se ne moµze racionalno objasniti, ma koliko mi to pokušavali. 5. Loših zamjenskih varijabli: µcesto varijable koje predlaµze ekonomska teorija nisu neposredno mjerljive. U poznatoj funkciji potrošnje Miltona Friedmana permanentna potrošnja ovisi o permanentnom dohotku. Me utim, niti je permanentni dohodak, niti je permanentna potrošnja neposredno mjerljiva veliµcina, već se procjenjuju na temelju njihovih tekućih vrijednosti. U tom sluµcaju moµze doći do greške u njihovoj procjeni. Ovu će mjernu grešku tako er na sebe preuzeti sluµcajna greška ". 6. Krive funkcionalne forme: iako smo ispravno u model ukljuµcili relevantne varijable moguće je da smo pogriješili u odabiru funkcionalne forme. Npr. pretpostavimo da je umjesto y = 0 + 1 x + " ispravan model y = 0 + 1 x + 2 x 2 + ". U modelu sa samo dvije varijable lako je na temelju izgleda dijagrama disperzije odrediti funkcionalnu formu. Me utim, u modelima s više nezavisnih varijabli to postaje vrlo teško jer nije moguće prikazati višestruko dimenzionalni dijagram disperzije. Greška, koja se pojavljuje uslijed odabira krive funkcionalne forme, ući će u sluµcajnu grešku ". 1.2.4 Prikupljanje podataka Parametre 0 i 1 modela 1.2 procjenjuju se na temelju opaµzanja varijabli x i y koji se dobiju iz statistike. Opaµzanja o varijablama mogu se prikupljati za vremenska razdoblja, pa govorimo o vremenskim nizovima (eng. time series). Osim toga mogu se prikupljati za pojedince, grupe pojedinaca, predmete ili za geografska podruµcja, pa govorimo o podacima vremenskog presjeka (eng. cross section). Obje se vrste podataka mogu kombinirati da bi se dobili zdruµzeni podaci vremenskih nizova i vremenskih presjeka (eng. pooled cross sections). Vremenski nizovi Vremenski se nizovi sastoje od opaµzanja jedne ili više varijabli kroz vrijeme. Takvi se podaci mogu prikupljati dnevno (npr. cijene dionica), tjedno 5

(npr. ponuda novca), mjeseµcno (npr. indeks cijena, stopa nezaposlenosti), kvartalno (npr. BDP), godišnje (npr. drµzavni proraµcun), desetogodišnje (npr. popis stanovništva). Tablica 1.1: Potrošnja i BDP u Hrvatskoj od 1997. do 2005. godine Godina Potrošnja (C) u milijardama kuna BDP (Y) u milijardama kuna 1997. 79.023 123.811 1998. 82.741 137.604 1999. 83.336 141.579 2000. 109.500 152.519 2001. 99.611 165.639 2002. 100.139 181.231 2003. 115.081 198.422 2004. 122.100 212.826 2005. 130.576 229.031 Izvor: International Financial Statistics (IFS), Međunarodni monetarni fond, veljača 2007. U Tablici 1.1 prikazani su podaci o hrvatskoj potrošnji i BDP-u za razdoblje od 1997. do 2005. godine na temelju kojih moµzemo izraµcunati hrvatsku funkciju potrošnje. Vidimo da se radi o dva vremenska niza izraµzena na godišnjoj frekvenciji. Svi podaci koji ulaze u odre enu ekonometrijsku analizu moraju biti izraµzeni u istoj vremenskoj frekvenciji (svi moraju biti godišnji, kao u gornjem sluµcaju, kvartalni, itd.) Podatke iz viših frekvencija moµzemo pretvoriti u niµze frekvencije (npr. kvartalne u godišnje) pomoću prosjeka za varijable koje prikazuju stanja (npr. cijene, kamatnjaci), ili pomoću zbrajanja za varijable koje prikazuju tokove (npr. BDP, potrošnja, investicije). S niµzih frekvencija na više frekvencije moguće je transformirati varijable pomoću statistiµckih metoda interpolacije (za stanja) i distribucije vrijednosti (za tokove). Vremenske nizove karakteriziraju trend i sezonska odstupanja (za frekvencije više od godišnjih) a njima se bavi jedan posebni dio ekonometrije koji se zove Analiza vremenskih nizova ili Ekonometrija vremenskih nizova. Na slici 1.3 prikazan je hrvatski BDP izraµzen u kvartalima (tromjeseµcno) gdje se jasno vidi da u promatranom razdoblju BDP ima znaµcajan trend rasta i velika sezonska odstupanja; BDP je najveći u 3. kvartalu a najmanji u 1. kvartalu 1. Drugim rijeµcima, vremenski nizovi µcesto nisu stacionarni procesi 2, a stacionarnost je jedna od pretpostavki na kojima leµze ekonometrijski modeli. 1 Jasno se vidi da je 1995. godine "podbacila" sezona uslijed redarstvenih akcija Bljeska i Oluje. 2 Kaµze se da je vremenski niz stacionaran ako se njegova sredina i varijanca asimptotski ne mijenjaju tijekom vremena. 6

150 BDP bazni indeks 2000.=100 125 100 75 1993 1995 1997 1999 2001 2003 2005 Slika 1.3: Hrvatski kvartalni BDP od 1993:1-2006:3 Vremenski presjeci Podaci vremenskog presjeka su podaci jedne ili više varijabli prikupljeni u zadanoj vremenskoj toµcki. Kada bismo na taj naµcin htjeli prikupiti podatke na temelju kojih bismo mogli procijeniti funkciju potrošnje u Hrvatskoj, morali bismo prikupiti npr. opaµzanja o dohotku i potrošnji po gradovima ili µzupanijama. U Tablici 1.2 prikazan je vremenski presjek (za 2004. g.) potrošnje i BDP-a za tranzicijske zemlje. Vidimo da se skup opaµzanja u ovom sluµcaju ne sastoji od razliµcitih godina, već od podataka za razliµcite zemlje za 2004. godinu. Ako ne bismo imali na raspolaganju podatke za sve zemlje za 2004. g., mogli bismo koristiti za neke zemlje i podatke iz 2003. ili 2005. godine, ako smatramo da nije došlo do strukturnih promjena u tim godinama. Drugim rijeµcima, u analizi vremenskih presjeka moµzemo zanemariti manje razlike u vremenu prikupljanja podataka. Kao što vremenski nizovi imaju svoje speci µcne probleme (stacionarnost), tako i vremenski presjeci imaju svoje speci µcne probleme, me u kojima je najznaµcajniji heterogenost podataka. Dijagramom disperzije na slici 1.4 prikazan je odnos izme u BDP-a i potrošnje u tranzicijskim zemljama. Imamo male zemlje s malim BDP-om kao što su Makedonija, Bugarska, Hrvatska, Slovenija i Slovaµcka, zemlje sa sred- 7

Tablica 1.2: Potrošnja i BDP 2004. godine u tranzicijskim zemljama Zemlja Potrošnja (C) u milijardama US $ BDP (Y) u milijardama US $ Bugarska 16.518 24.225 Hrvatska 20.249 35.295 Češka 54.818 108.212 Mađarska 68.572 102.157 Makedonija 4.182 5.368 Poljska 161.921 252.254 Rumunjska 51.277 75.574 Slovačka 23.833 42.011 Slovenija 17.874 32.601 Izvor: International Financial Statistics (IFS), Međunarodni monetarni fond, veljača 2007. njim BDP-om kao Rumunjska, µceška i Ma arska, i na kraju imamo Poljsku koja znatno odskaµce po svojoj veliµcini. U tom sluµcaju, imamo heterogene podatke i zato moramo voditi raµcuna o tzv. efektu razmjera ili efektu opsega. Zdruµzeni podaci i panel (uzduµzni) podaci Ako kombiniramo vremenske nizove s vremenskim presjecima dobijemo zdru- µzene podatke. Posebna vrsta zdruµzenih podataka, u kojima se kroz razliµcite vremenske toµcke pojavljuju iste vremenski presjeµcne jedinice (iste obitelji, iste zemlje, itd.), zovu se panel ili uzduµzni (longitudinalni) podaci. Tablica 1.3 prikazuje uzduµzne podatke o potrošnji i BDP-u za tranzicijske zemlje. U tom sluµcaju imamo za svaku vremenski presjeµcnu jedinicu (zemlju) niz vremenskih toµcaka (od 1997. do 2005. godine). Ako gledamo tablicu kroz njezine retke, vidimo vremenski presjek, ali ako je gledamo kroz stupce, vidimo vremenski niz. Znaµci, uzduµzni podaci su kombinacija vremenskih presjeka i vremenskih nizova za iste vremenski presjeµcne jedinice. Pretpostavimo, me utim, da se u dvije razliµcite godine (2000. i 2005.) istraµzivala funkcija potrošnje hrvatskih obitelji s pitanjima o njihovim dohocima i potrošnji. Kada bismo ukljuµcili samo opaµzanja iz 2000. godine, ili samo opaµzanja iz 2005. godine, radilo bi se o vremenskom presjeku. Me utim, kako bi se povećao broj opaµzanja moµzemo zdruµziti podatke iz 2000. i 2005. godine i tako dobiti zdruµzene podatke iz obje godine. Budući da su se obitelji za istraµzivanje birale sluµcajno, vrlo je mala vjerojatnost da je ista obitelj sudjelovala u istraµzivanju 2000. i 2005. godine. Stoga za razliµcite vremenske toµcke imamo razliµcite vremenski presjeµcne jedinice (obitelji). U tom sluµcaju ne govorimo o uzduµznim (panel) podacima nego samo o zdruµzenim (pooled) podacima. 8

Slika 1.4: Odnos BDP-a i potrošnje u tranzicijskim zemljama 2004. godine. 1.2.5 Procjena ekonometrijskog modela Kada imamo podatke, moµzemo procijeniti parametre funkcije potrošnje 1.2 na temelju vrijednosti prikazanih u Tablici 1.1. Na Slici 1.5 prikazana je hrvatska funkcija potrošnje za razdoblje od 1997. do 2005. godine. Pravac koji prolazi kroz toµcke dijagrama disperzije nacrtali smo na naµcin da minimiziramo sumu kvadrata odstupanja. O toj metodi bit će više rijeµci u sljedećem poglavlju. Dobiveni koe cijenti prikazanog pravca su: by = 21:42 + 0:47x: (1.3) Kapica nad y oznaµcava da se radi o procijenjenoj vrijednosti (prikazanoj pravcem) stvarne zavisne varijable y (prikazana toµckama). Iz procijenjene funkcije potrošnje prikazane u jednadµzbi 1.3 vidimo da je koe cijent nagiba 0.47, što znaµci da bi u promatranom razdoblju povećanje BDP-a u Hrvatskoj za 1 kunu povećalo u prosjeku potrošnju stanovništva za 47 lipa. Iz Slike 1.5 vidimo da smo provukli regresijski pravac kroz dijagram disperzije. Kada se, me utim, priµca o linearnoj regresiji, ne misli se na linearnost u varijablama, već na linearnost u parametrima. Mogli smo kroz toµcke dijagrama disperzije povući i neki drugi oblik funkcije, kao npr. 9

Tablica 1.3: Potrošnja i BDP u tranzicijskim zemljama u razdoblju od 1997. do 2005. g. (u milijardama US dolara) Godina 1997. 1998. 1999. 2000. 2001. 2002. 2003. 2004. 2005. Bugarska C 7.57 8.60 9.22 8.73 9.47 10.69 13.73 16.52 18.71 Y 10.38 12.74 12.93 12.62 13.63 15.55 19.97 24.22 26.72 Hrvatska C 12.83 13.01 11.72 13.22 11.94 13.60 17.18 20.25 21.95 Y 20.10 21.64 19.91 18.42 19.86 23.03 29.62 35.29 38.49 Češka C 30.72 32.58 31.84 29.77 32.08 38.56 47.23 54.82 61.50 Y 57.13 61.85 60.19 56.71 61.84 75.27 91.35 108.21 123.97 Mađarska C 28.28 29.37 30.67 30.25 34.22 44.00 57.59 68.57 75.10 Y 45.72 47.05 48.04 47.96 53.32 66.71 84.42 102.16 110.37 C 2.71 2.59 2.56 2.67 2.41 2.92 3.53 4.18 Makedonija Y 3.72 3.58 3.67 3.59 3.44 3.79 4.63 5.37 Poljska C 98.56 107.86 106.00 109.65 123.65 132.28 141.95 161.92 190.32 Y 157.12 172.67 167.84 171.18 190.51 198.00 216.48 252.25 302.67 Rumunjska C 26.06 31.81 26.49 25.95 28.10 31.56 39.29 51.28 73.16 Y 35.13 42.00 35.67 37.04 40.13 45.76 59.51 75.57 97.25 Slovačka C 11.67 12.38 11.72 11.57 12.25 14.20 18.70 23.83 27.21 Y 21.56 22.43 20.60 20.45 21.11 24.52 32.98 42.01 47.43 Slovenija C 11.45 12.12 12.50 11.08 11.20 12.38 15.66 17.87 18.87 Y 19.72 21.04 21.56 19.31 19.77 22.29 28.07 32.60 34.35 Izvor: International Financial Statistics (IFS), Međunarodni monetarni fond, veljača 2007. y = 0 + 1 x 2, ili ln y = 0 + 1 ln x, tj. nelinearan model u varijablama, me utim, i dalje govorimo o linearnoj regresiji jer su prikazani modeli linearni u parametrima. Modeli tipa y = 0 + 2 1x, y = p 0 + 1 x; iako su linearni u varijablama, nisu linearni u parametrima i stoga govorimo o nelinearnim (u parametrima) regresijskim modelima. 1.2.6 Testiranje hipoteza Kao što smo ranije rekli Keynes je oµcekivao da je graniµcna sklonost potrošnji izme u 0 i 1. U sluµcaju Hrvatske procijenili smo u jednadµzbi 1.3 da je graniµcna sklonost potrošnji u Hrvatskoj u promatranom razdoblju bila 0.47. Kako bismo zakljuµcili da je dobiveni rezultat za Hrvatsku u suglasju sa Keynesijanskom ekonomskom teorijom, i da se ne radi o sluµcajnosti, moramo dodatno testirati je li ova vrijednost statistiµcki znaµcajno razliµcita od 0 i mogućnost da nije veća od 1. 1.2.7 Prognoziranje i predvi anje Na temelju jednadµzbe 1.3 moµzemo predvidjeti vrijednosti varijable y za zadane vrijednosti varijable x. Npr. moµzemo predvidjeti kolika će biti potrošnja stanovništva u Hrvatskoj ako BDP dosegne vrijednost od 250 milijardi kuna 10

140 130 Potrošnja u milijardama kuna 120 110 100 90 80 70 100 120 140 160 180 200 220 240 BDP u milijardama kuna Slika 1.5: Hrvatska funkcija potrošnje za razdoblje od 1997. do 2005. godine na sljedeći naµcin: by 250 = 21:42 + 0:47(250) = 138:92: Drugim rijeµcima, na temelju vrijednosti naših parametara prognoziramo da će potrošnja stanovništva biti 138:92 milijarde kuna, kada će BDP u Hrvatskoj iznositi 250 milijardi kuna. 1.3 Regresijska funkcija populacije i regresijska funkcija uzorka Pretpostavimo da smo iz hipotetiµcke populacije studenata prikupili podatke o njihovom mjeseµcnom dohotku i o njihovoj mjeseµcnoj potrošnji. Studente smo podijelili na 10 dohodovnih razreda (od 100 kn do 1000 kn) i u Tablici 1.4 prikazali njihove mjeseµcne potrošnje. Stoga imamo 10 ksnih vrijednosti varijable x kojima odgovaraju razliµcite vrijednosti y. Drugim rijeµcima imamo 10 dohodovnih podpopulacija. Iz Tablice 1.4 jasno se vidi da se u svakoj dohodovnoj grupi studenti razliµcito ponašaju (imamo one sklonije štednji i one manje sklone štednji); tako npr. pojedini studenti koji imaju dohodak 300 kn troše više (250 kn 11

Tablica 1.4: Mjeseµcna potrošnja i dohodak studenata (u kunama) Dohodak 100 200 300 400 500 600 700 800 900 1000 80 120 190 240 290 350 460 500 600 700 85 145 200 260 330 410 480 520 620 710 90 150 230 300 365 445 490 540 640 750 95 160 240 310 370 460 500 550 660 100 165 250 330 375 480 510 590 680 180 270 360 390 495 520 620 700 200 410 530 650 430 540 670 560 Ukupno 450 1120 1380 1800 2960 2640 4590 4640 3900 2160 E ( y x i ) 90 160 230 300 370 440 510 580 650 720 Potrošnja i 270 kn) nego pojedini studenti koji imaju dohodak 400 kn (240 kn i 260 kn). Moµzemo, me utim, primijetiti da unatoµc tim varijabilnostima postoji odre eno pravilo da u prosjeku studenti koji imaju veći dohodak više i troše. To se jasno vidi iz aritmetiµckih sredina (ili prosjeka) svake podpopulacije koje su prikazane u zadnjem retku Tablice 1.4 koje zovemo vrijednostima uvjetnog oµcekivanja jer su uvjetovane zadanim vrijednostima varijable x. Uvjetno oµcekivanje oznaµcavamo s E (yjx i ) te µcitamo oµcekivana vrijednost y za zadanu vrijednost x. Tako npr. oµcekivana potrošnja studenata, koji imaju dohodak od 200 kn, iznosi 160 kn, dok je kod studenata, koji imaju 800 kn, oµcekivana potrošnja 580 kn. Uvjetno oµcekivanje razlikuje se od matematiµckog (neuvjetnog) oµcekivanja E (y) koji prikazuje prosjeµcnu potrošnju svih 64 studenata populacije, neovisno o njihovom dohodovnom razredu. U našem bi sluµcaju matematiµcko oµcekivanje bilo E (y) = 450+1120++2160 64 = 400:625. Na slici 1.6 prikazan je dijagram disperzije na temelju Tablice 1.4. Spajanjem svih uvjetnih oµcekivanja za sve ksne vrijednosti dohotka dobili smo regresijsku funkciju populacije (RFP) 3 koja u našem sluµcaju poprima oblik pravca. Sve toµcke kojima prolazi regresijski pravac populacije oznaµcava oµcekivanu potrošnju odre enog dohodovnog razreda; tako npr. za razred 200 kn oµcekivana potrošnja je 160 kn, za razred 500 kn oµcekivana potrošnja je 370 kn, itd. Općenito moµzemo reći da regresijska funkcija populacije predstavlja sve toµcke uvjetnih oµcekivanja zavisne varijable y za ksne vrijednosti nezavisne varijable x. Na temelju tako de nirane regresijske funkcije populacije moµzemo odrediti pojedinaµcnu potrošnju svakog studenta kao odstupanje od uvjetnog oµce- 3 Na slici je oznaµcena sa E (yjx i). 12

y E ( y x ) 800 i 700 600 500 510 Potrošnja 400 300 370 200 100 160 0 0 100 200 300 400 500 600 700 800 900 1000 1100 Dohodak x Slika 1.6: Regresijska funkcija populacije izvedena iz Tablice 1.4 kivanja dohodovnog razreda kojemu pripada Stvarna potrošnja bit će " i = y i E (yjx i ) : y i = E (yjx i ) + " i : (1.4) Znaµci, potrošnja i tog studenta sastoji se od dva dijela: jedan je deterministiµcki ili sustavni dio E (yjx i ) kojeg moµzemo predvidjeti na temelju dohodovnog razreda kojemu student pripada te od " i što predstavlja slu- µcajno odstupanje ili nesustavni dio. Sluµcajno se odstupanje pojavljuje zbog utjecaja ostalih varijabli na potrošnju studenata a koje nisu ukljuµcene u model, kao npr. spol, stanuje li student s roditeljima ili je podstanar, društvo u kojemu se kreće, navike, itd 4. Ako pretpostavimo da imamo linearnost E (yjx i ) u varijabli x i kao na slici 1.6 tada se jednadµzba 1.4 pretvara u y i = 0 + 1 x i + " i : (1.5) Naµzalost, u praksi nemamo na raspolaganju cjelokupnu populaciju već samo uzorak iz te populacije. Stoga je problem, s kojim smo suoµceni, da na 4 Glavni razlozi pojavljivanja sluµcajne greške " i objašnjeni su u naslovu Speci kacija ekonometrijskog modela na stranici 4. 13

temelju poznavanja samo vrijednosti uzorka, izvuµcenog iz neke populacije, moramo procijeniti nama nepoznatu funkciju populacije prikazanu jednadµzbom 1.5. Pretpostavimo da smo iz populacije prikazane u Tablici 1.4 izvukli jedan sluµcajan uzorak (Uzorak 1) potrošnje studenata za svaku dohodovnu grupu, prikazan u Tablici 1.5 Tablica 1.5: Sluµcajni uzorci iz Tablice populacije Dohodak Potrošnja: uzorak 1 Potrošnja: uzorak 2 100 80 95 200 145 200 300 270 240 400 310 330 500 375 390 600 480 460 700 530 500 800 520 550 900 700 640 1000 750 700 Moµzemo primijetiti da za svaku dohodovnu grupu ( ksna vrijednost x) imamo samo jednu vrijednost potrošnje (y), za razliku od populacije kada smo za svaku vrijednost x imali više vrijednosti y. Vrijednosti iz Tablice 1.5 (Potrošnja: uzorak 1) prikazali smo na Slici 1.7 i provukli kroz toµcke regresijsku funkciju uzorka (RFU 1 ) koja u našem sluµcaju poprima izgled pravca kojeg ćemo oznaµciti ^y i = b 0 + b 1 x i + e i (1.6) gdje je: ^y i = procjenitelj E (yjx i ) b 0 = procjenitelj 0 b 1 = procjenitelj 1 e i = sluµcajno odstupanje uzorka koje interpretiramo kao procjenitelj " i : Cilj regresijske funkcije uzorka ^y i = b 0 +b 1 x i +e i je procijeniti nepoznatu regresijsku funkciju populacije y i = 0 + 1 x i + " i. Iz naše populacije, prikazane u Tablici 1.4, moµzemo izvući i drugi uzorak (Uzorak 2 koji je prikazan u Tablici 1.5). Na slici 1.7 vidimo da, iako izvuµceni iz iste populacije, regresijske funkcije uzoraka (RFU 1 i RFU 2 ) me usobno se razlikuju zbog uktuacije populacije oko regresijske funkcije populacije. Jedino u specijalnom sluµcaju, kada bi se sve toµcke populacije prikazane na slici 1.6 nalazile na regresijskom pravcu populacije, tada bi regresijski pravci uzoraka prikazani na slici 1.7 bili potpuno jednaki. Što je veća disperzija toµcaka oko regresijske funkcije populacije, to je vjerojatnost da su regresijske funkcije uzoraka me usobno razliµcitije. Postavlja se, dakle, pitanje 14

800 RFU 1 RFU 2 700 600 500 Potrošnja 400 300 200 100 0 0 100 200 300 400 500 600 700 800 900 1000 1100 Dohodak Slika 1.7: Regresijske funkcije uzoraka temeljene na populaciji iz Tablice 1.4 jesu li i pod kojim uvjetima regresijske funkcije uzoraka dobri procjenitelji regresijske funkcije populacije? Odgovor glasi da će regresijska funkcija uzorka biti dobar procjenitelj "nevidljive" regresijske funkcije populacije ako vrijede sljedeće pretpostavke o RFP, koje zovemo i pretpostavkama klasiµcnog linearnog regresijskog modela: 1. Linearnost u parametrima: već smo rekli da kada govorimo o linearnim modelima govorimo o linearnosti u parametrima. Neki modeli mogu izgledati nelinearno u parametrima kao na primjer Cobb-Douglasova funkcija proizvodnje 5 y = 0 K 1L 2e " (1.7) koju, me utim, moµzemo jednostavno linearizirati ako je logaritmiramo ln y = + 1 ln K + 2 ln L + " (1.8) gdje je a = ln 0 : Vidimo da je jednadµzba 1.8 nelinearna u varijablama (zbog logaritama), ali linearna u parametrima. U tom sluµcaju govorimo da je model prikazan jednadµzbom 1.7 suštinsko linearan model, 5 Napomena: e u jednadµzbi (1.7) odnosi se na bazu prirodnog logaritma a ne na sluµcajno odstupanje uzorka. 15

jer ga moµzemo odre enim transformacijama pretvoriti u model linearan u parametrima. S druge strane, da je Cobb-Douglasova funkcija bila de nirana kao y = 0 K 1L 2 + "; (1.9) ne bi je bilo moguće nikakvom transformacijom linearizirati. U tom sluµcaju govorimo da je model suštinsko nelinearan model i da ne zadovoljava pretpostavku o linearnosti u parametrima. 2. Nestohastiµcnost varijable x: vrijednosti varijable x ksirane su u ponovljenom uzorkovanju, kao na primjeru u Tablici 1.4 kada imamo razliµcite vrijednosti potrošnje (y) za ksne (iste) vrijednosti dohotka (x). 3. Sredina sluµcajne greške " i je jednaka nuli ili simboliµcki E (" i jx i ) = 0. Budući da regresijska funkcija populacije predstavlja uvjetno matematiµcko oµcekivanje E (yjx i ), tj. sredinu (prosjek) y za zadani x i, to znaµci da je zbroj pozitivnih i negativnih odstupanja " i za svaki zadani x i jednak nuli. Primjer 1.1 Zbrajanjem odstupanja od uvjetnog matematiµcko oµcekivanja za dohodovnu grupu 100 kn u Tablici 1.4 dobijemo (80 90) + (85 90) + + (100 90) = 10 + ( 5) + + 10 = 0. Isto vrijedi i za sve ostale dohodovne grupe. 4. Homoskedastiµcnost: jednaka varijanca za sva opaµzanja ili simboliµcki V ar (" i jx i ) = E [" i E (" i jx i )] 2 = 2 : Razumno bi bilo oµcekivati, u našem hipotetiµckom primjeru, osim da studenti s većim dohotkom troše apsolutno više u odnosu na studente s manjim dohotkom, da varijanca odstupanja (rasipanje oko RFP, varijabilnost potrošnje unutar dohodovne grupe) bude veća za studente s višim dohocima u odnosu na one koji imaju manji dohodak i stoga manji "manevarski" prostor za potrošnju. Ako varijanca sluµcajne greške nije ista za sva opaµzanja, već ovisi o nekoj od nezavisnih varijabli (u našem sluµcaju raste s rastom dohotka) govorimo o heteroskedastiµcnosti, koju simboliµcki oznaµcavamo s Var(" i jx i ) = 2 i, gdje nam subskript i govori da varijanca sluµcajnog odstupanja " i nije konstantna. 5. Odsutnost autokorelacije sluµcajnih odstupanja: za dvije ksne vrijednosti x i i x j za (i 6= j), kovarijanca (korelacija) izme u dva sluµcajna odstupanja " i i " j za bilo koji (i 6= j) je nula, ili simboliµcki Cov (" i ; " j jx i ; x j ) = E f[" i E (" i )] jx i g f[" j E (" j )] jx j g = 0: To znaµci da je odstupanje " sluµcajno, tj. da nema sustavni obrazac (kao npr. isti predznak s prethodnim opaµzanjem). 16

6. Odsutnost multikolinearnosti: izme u nezavisnih varijabli (kada ih imamo više) ne smije postojati savršena linearna veza. Ako postoji znaµcajna veza izme u nezavisnih varijabli, vrlo je teško izolirati utjecaj pojedinih varijabli na zavisnu varijablu y. 7. Kovarijanca izme u " i i x i je nula, ili simboliµcki Cov (" i ; x i ) = E [" i E (" i )] [x i E (x i )] = 0: Kada smo de nirali RFP u jednadµzbi 1.5 pretpostavili smo da x i " imaju zasebne utjecaje na y (deterministiµcki i nesustavni dio). Me utim, kada bi oni bili me usobno korelirani, takvi se zasebni utjecaji x i " na y ne bi mogli pravilno identi cirati. 8. Broj opaµzanja mora biti veći od broja parametara koji se procjenjuju: na temelju jednog opaµzanja (jedna toµcka u dvodimenzionalnom prostoru) ne moµzemo procijeniti pravac na tom prostoru; potrebne su nam minimalno dvije toµcke da odredimo parametre pravca 0 i 1, drugim rijeµcima potrebna su nam barem dva opaµzanja. 9. Varijabilnost vrijednosti x: vrijednosti varijable x ne smiju biti sve iste. Bolje je ako varijabla x ima veće uktuacije jer se u tom sluµcaju varijablom x mogu bolje objasniti uktuacije zavisne varijable y. 10. Pravilno speci ciran regresijski model: kada govorimo o pravilno speci- ciranom modelu, govorimo o pravilno speci ciranoj funkcionalnoj formi, pravilno speci ciranim nezavisnim varijablama i pravilno speci ciranim pretpostavkama o vjerojatnosti y, x, i ". 17

Poglavlje 2 Parametri modela dobiveni metodom najmanjih kvadrata U prethodnom poglavlju objasnili smo da ako vrijede pretpostavke o RFP-u mogu se donositi zakljuµcci o regresijskoj funkciji populacije (RFP) y i = 0 + 1 x i + " i na temelju regresijske funkcije uzorka (RFU) ^y i = b 0 + b 1 x i + e i : Postavlja se, me utim, pitanje kako procijeniti parametre b 0 i b 1 regresijske funkcije uzorka. 2.1 Procjena parametara Tablica 2.1: Mjeseµcna potrošnja i dohodak studenata (u kunama) Student Potrošnja Dohodak Marko 100 150 Ivan 250 300 Mira 300 500 Maja 210 400 Ana 160 200 Pretpostavimo da smo izabrali jedan reprezentativni uzorak studenata koji su nam dali podatke o njihovim mjeseµcnim potrošnjama i dohocima. Prikupljeni podaci prikazani su u Tablici 2.1. Ako vrijednosti iz Tablice 18

350 300 250 Potrošnja 200 150 100 50 0 0 100 200 300 400 500 600 Dohodak Slika 2.1: Dijagram disperzije mjeseµcnog dohotka i potrošnje studenata (u kunama) 2.1 prikaµzemo dijagramom disperzije, u kojemu svakom opaµzanju odgovara jedna toµcka u dvodimenzionalnom prostoru dobijemo Sliku 2.1. Iz prikazanih toµcaka vidimo da kada se vrijednost dohotka studenata povećava, povećava se i njihova potrošnja. Me utim na temelju prikazanih toµcaka ne moµzemo toµcno kvanti cirati npr.: koliko će studenti povećati potrošnju, ako im se dohodak poveća za 100 kn, kolika je vjerojatnost potrošnje studenta koji ima 450 kn dohotka, kolika je autonomna (koja ne ovisi o dohotku) potrošnja studenata, itd. Odgovore na ova pitanja moguće je dobiti ako kroz toµcke dijagrama disperzije provuµcemo odre enu matematiµcku funkciju. Na temelju pozicioniranja toµcaka na dijagramu disperzije prikazanom na Slici 2.1 moµzemo pretpostaviti da je prikladni funkcionalni oblik regresijske funkcije pravac kojim bismo mogli objasniti vezu izme u dohotka i potrošnje studenata. Problem koji se sada nameće je kako odrediti parametre pravca koji će ga de nirati. Razumno bi bilo da pravac odredimo tako da minimiziramo zbroj svih odstupanja (greške), tj. min P e i : Iz Slike 2.2 vidimo da pravac P1 prolazi bliµze toµckama dijagrama disperzije od pravca P2. S druge strane ako zbrojimo odstupanja za P1 (- 35+0+60+(-30)+10) vidimo da je rezultat P e i = 5, dok ako zbrojimo odstupanja za P2 (-180+(-120)+60+50+190) rezultat je P e i = 0. Drugim rijeµcima po kriteriju minimizacije odstupanja bolji je pravac P2 u odnosu 19

350 300 +10 P1 e i = 5 e 2 = 5825 i Potrošnja 250 200 150 100 180 35 120 +60 30 +50 +190 P2 e i = 0 2 e i = 89000 50 0 0 100 200 300 400 500 600 Dohodak Slika 2.2: Kriterij minimalnih kvadrata odstupanja na pravac, koji "na oko" izgleda bolji, P1. Zašto? Vrijednosti odstupanja e i poprimaju pozitivne i negativne vrijednosti tako da se u njihovom zbrajanju me usobno poništavaju. Tako u sluµcaju pravca P2, u kojemu su velika odstupanja, imamo u zbroju veće (potpuno) poništavanje vrijednosti odstupanja u odnosu na pravac P1, koji ima vidno manja odstupanja, ali koja se u zbroju ne poništavaju u cijelosti. Poništavanje vrijednosti u zbroju moµzemo izbjeći tako da kvadriramo vrijednosti e i : Iz Slike 2.2 vidimo da je za pravac P1 zbroj P e 2 i = ( 35)2 + 0 2 + + 10 2 = 5825 znatno manji u odnosu na pravac P2 gdje je P e 2 i = (( 180) 2 + ( 120) 2 + + 190 2 ) = 89000. Ako nam kriterij za vuµcenja pravca kroz toµcke dijagrama disperzije postane minimizacija P e 2 i ; tada vidimo da pravac, koji "na oko" izgleda bolji, bolji je i na temelju našeg postavljenog kriterija minimizacije kvadrata odstupanja koji sprjeµcava poništavanje pozitivnih i negativnih vrijednosti odstupanja. Metodu, koja se temelji na kriteriju minimizacije kvadrata odstupanja, zovemo Obiµcnom metodom najmanjih kvadrata (eng. OLS - Ordinary Least Square). Kvadriranjem odstupanja, osim što pretvaramo odstupanja u pozitivne vrijednosti, dajemo veću teµzinu većim (udaljenijim od regresijskog pravca) odstupanjima u odnosu na manja, budući da su vrijednosti kvadrirane. Problem se u tom sluµcaju moµze pojaviti u prisutnosti izuzetno udaljenih 20

odstupanja (eng. outliers), µcija prisutnost moµze bitno promijeniti izgled regresijskog pravca, budući da je metoda najmanjih kvadrata izuzetno osjetljiva na takve udaljene toµcke. Uobiµcajeno je rješenje tog problema da se opaµzanja vezana za udaljene toµcke jednostavno izbace iz analize. Pri tome se me utim mora pristupiti vrlo paµzljivo jer ponekad te udaljene toµcke u sebi mogu sadrµzavati bitne informacije o vezi izme u analiziranih varijabli. Na temelju kriterija minimizacije kvadrata odstupanja iz Slike 2.2 vidimo da je pravac P1 bolji od pravca P2. Ali nitko nam ne jamµci da je pravac P1 najbolji izme u svih mogućih pravaca koje moµzemo potegnuti kroz dijagram disperzije po kriteriju minimizacije kvadrata odstupanja. Moramo li na temelju reµcenoga potegnuti kroz toµcke dijagrama disperzije veliki broj pravaca i na temelju njihovog zbroja kvadrata odstupanja odluµciti koji je od njih najbolji, ili drugim rijeµcima koji ima minimalni P e 2 i? Takav bi pristup bio sigurno vremenski jako rastrošan i na kraju ne bismo imali konaµcan odgovor, tj. ne bismo imali nikakvu sigurnost da je naš pravac, najbolji me u onima koje smo testirali, i najbolji me u onima koje nismo testirali. Ovaj problem riješio je njemaµcki matematiµcar Carl Friedrich Gauss na sljedeći naµcin. Za model s jednom nezavisnom varijablom y i = b 0 + b 1 x i + e i (2.1) moramo izabrati parametre b 0 i b 1 tako da minimiziraju P e 2 i : Da bismo dobili parametri s tim svojstvima moramo parcijalno derivirati izraz P e 2 i po b 0 i b 1 i izjednaµciti prve derivacije s nulom kako bismo dobili ekstreme funkcija (minimum). Kriterij najmanjih kvadrata moµzemo de nirati kao nx nx Min e 2 i = Min (y i b 0 b 1 x i ) 2 (2.2) i=1 i=1 gdje y i oznaµcava stvarnu vrijednost y za i-to opaµzanje, a n oznaµcava broj opaµzanja. Parcijalnim deriviranjem izraza 2.2 po parametrima b 0 i b 1 i izjednaµcavanjem prve derivacije s nulom dobivamo jednadµzbe @ @b 0 P (yi b 0 b 1 x i ) 2 = 2 P (y i b 0 b 1 x i ) = 0 (2.3) @ @b 1 P (yi b 0 b 1 x i ) 2 = 2 P x i (y i b 0 b 1 x i ) = 0: (2.4) Simultanim rješavanjem jednadµzbi 2.3 i 2.4 po parametrima b 0 i b 1 (cjeloviti izvod prikazan je u Dodatku A.1) dobijemo vrijednosti parametara koje imaju svojstvo minimizacije sume kvadrata odstupanja prikazanih u jednadµzbi 2.2 koje glase P P (xi x) (y i y) ~xi ~y i b 1 = P (xi x) 2 = P ~x 2 (2.5) i 21

b 0 = y b 1 x (2.6) gdje y i x prikazuju sredine uzoraka, a ~x i ~y oznaµcavaju varijable x i y u njihovoj devijacijskoj formi 1 ~x i = x i x ~y = y i y: Korištenjem Gaussovih jednadµzbi 2.5 i 2.6 moµzemo dobiti parametre (procjenitelje) modela na temelju obiµcne metode najmanjih kvadrata u slu- µcaju jedne nezavisne varijable. Ako imamo više nezavisnih varijabli procjenitelje, temeljene na Gaussovoj metodi najmanjih kvadrata (OLS), moµzemo jednostavno dobiti korištenjem matriµcne algebre. Model sa (k 1) brojem nezavisnih varijabli y i = b 0 + b 1 x 1i + b 2 x 2i + + b (k 1) x (k 1)i + e i (2.7) moµzemo prikazati u matriµcnoj formi y = Xb + e (2.8) u kojoj 2 3 2 y 1 y 2 y = 6 7 4. 5 X = 6 4 y n 1 x 11 x (k 1)1 1 x 12 x (k 1)2...... 1 x 1n x (k 1)n 3 2 7 5 b = 6 4 b 0 b 1. b k 1 3 2 7 5 e = 6 4 e 1 e 2. e n 3 7 5 gdje y = n 1 vektor stupac s opaµzanjima zavisne varijable X = n k matrica s opaµzanjima nezavisnih varijabli b = k 1 vektor stupac nepoznatih parametara e = n 1 vektor stupac odstupanja. Svaki element matrice X ima dva subskripta; prvi se odnosi na varijablu (stupac), dok se drugi odnosi na opaµzanje (redak). Tako npr. element x 24 oznaµcava µcetvrto opaµzanje varijable x 2. Interesantno je primijetiti da je prvi redak u matrici X ispunjen jedinicama. Ovaj redak odraµzava konstantni µclan koji se veµze za parametar b 0. Našje cilj, kao i u sluµcaju sa samo jednom nezavisnom varijablom, minimizirati sumu kvadrata odstupanja koju u matriµcnoj algebri moµzemo pisati P min n e 2 i = min(e 0 e): (2.9) i=1 1 Neka svojstva devijacijskih formi prikazana su u Dodatku A.1 22

Iz jednadµzbe 2.8 imamo što sumu kvadrata odstupanja pretvara u e = y Xb; (2.10) e 0 e = (y Xb) 0 (y Xb) = y 0 y b 0 X 0 y y 0 Xb + b 0 X 0 Xb = y 0 y 2b 0 X 0 y + b 0 X 0 Xb: (2.11) Zadnji je korak moguć jer su b 0 X 0 y i y 0 Xb me usobno jednaki skalari. Minimizirati sumu kvadrata odstupanja po parametrima modela moµzemo ako deriviramo e 0 e po parametrima i izjednaµcimo prvu derivaciju s nulom @ @b y0 y 2b 0 X 0 y + b 0 X 0 Xb = 2X 0 y+2x 0 Xb = 0; (2.12) iz µcega slijedi da b = X 0 X 1 X 0 y: (2.13) Za dobivanje jednadµzbe 2.13 nismo koristili nikakve pretpostavke o na- µcinu na koji se podaci generiraju. Jedino što pretpostavljamo je da postoji inverzna matrica (X 0 X) 1, tj. da matrica X 0 X nije singularna matrica, što podrazumijeva da niti jedan redak (stupac) te matrice ne smije biti egzaktna linearna kombinacija ostalih redaka, što znaµci da nema multikolinearnosti (linearne veze izme u nezavisnih varijabli). Tablica 2.2: Izraµcun vrijednosti procjenitelja (parametara) na temelju obiµcne metode najmanjih kvadrata odstupanja Student yi x x~ i y~i i x ~ i y 2 i x ŷ i i ei e i Marko 100 150 104 160 16640 25600 126.34 26.34 693.87 Ivan 250 300 46 10 460 100 199.15 50.85 2586.09 Mira 300 500 96 190 18240 36100 296.22 3.78 14.29 Maja 210 400 6 90 540 8100 247.68 37.68 1420.00 Ana 160 200 44 110 4840 12100 150.61 9.39 88.18 1020 1550 0 0 39800 82000 1020 0 4802.44 Sredina 204 310 204 960.49 Primjer 2.1 Iz jednadµzbi za parametre 2.5 i 2.6 i Tablice 2.2 moµzemo izraµcunati: P ~xi ~y i b 1 = P ~x 2 = 39800 = 0:48537 (2.14) i 82000 b 0 = y b 1 x = 204 0:48537 310 = 53: 535: (2.15) 23

Isti smo rezultat mogli dobiti i korištenjem matriµcne forme iz jednadµzbe 2.13 koja vrijedi za broj k nezavisnih varijabli pa stoga vrijedi i za sluµcaj samo jedne nezavisne varijable, kao u našem primjeru: gdje su Ako izraµcunamo 2 da 2 X = 6 4 b = X 0 X 1 X 0 y 1 150 1 300 1 500 1 400 1 200 X 0 1 1 1 1 1 X = 150 300 500 400 200 i da 1 1 1 1 1 X 0 y = 150 300 500 400 200 u konaµcnici imamo b = X 0 X 1 X 0 y = 3 5 1550 1550 562 500 2 7 5 ; y = 6 4 2 6 4 2 6 4 100 250 300 210 160 1 150 1 300 1 500 1 400 1 200 100 250 300 210 160 3 7 5 = 3 7 5 3 1 1020 356 000 7 5 = 1020 356 000 5 1550 1550 562 500 ; 53: 535 = : 0:485 37 (2.16) Vidljivo je da smo u 2.16 dobili identiµcni rezultat kao i u jednadµzbama 2.14 i 2.15, tj. da je b 0 = 53:535, a b 1 = 0:48537. Drugim rijeµcima naš regresijski pravac uzorka (zaokruµzen na dvije decimale) dobiven metodom najmanjih kvadrata je ^y i = 53:54 + 0:49x i : (2.17) Iz Tablice 2.2 vidimo da je P e 2 i = 4802:44 ovog pravca manja nego za pravce iz Slike 2.2. Ne samo to, već znamo da ne postoji pravac, me u testiranima i ne testiranima do sada, koji bi imao manju sumu kvadrata odstupanja. Regresijski pravac iz 2.17 moµzemo gra µcki prikazati kao na Slici 2.3. Vidimo da za prvo opaµzanje (Marko iz Tablice 2.2) imamo dohodak od 150; stvarnu potrošnju y 1 = 100 i Markovu procijenjenu potrošnju našim regresijskim pravcem od ^y 1 = 126:34. Stoga odstupanje regresijskog pravca 2 Manipuliranje matricama olakšavaju matriµcno orijentirani raµcunalni paketi kao što su Matlab ili Scilab 24

od stvarne vrijednosti (greška) u Markovom sluµcaju je (y 1 ^y 1 ) = e 1 = 26:34. Ostale stvarne i procijenjene vrijednosti nisu prikazane na Slici 2.3 nego ih moµzemo naći u Tablici 2.2. Potrošnja yˆ = 53.54 + 0. 49 i x i ˆ = 274.04 y p y = 204 yˆ1 =126.34 y 1 =100 e1 = 26.34 53.54 0 x 1 =150 x = 310 x p = 450 Dohodak Slika 2.3: Regresijski pravac uzorka Na temelju ovog dobivenog pravca moµzemo odgovoriti na pitanja na koje nismo mogli odgovoriti na temelju samo dijagrama disperzije kao što su: Koliko će studenti povećati potrošnju ako im se dohodak poveća za 100 kn? Prva derivacija potrošnje po dohotku dobivenog pravca je d^y dx = 0:49, što znaµci da je graniµcna sklonost potrošnji reprezentativnog studenta 0:49, što nam govori da će od dodatne dobivene kune potrošiti 49 lipa, ili ako dobije dodatnih 100 kuna, 49 kuna će potrošiti, a 51 kunu uštedjeti. Gra µcki 0:49 predstavlja koe cijent smjera (nagib) regresijskog pravca na Slici 2.3. Kolika je vjerojatnost potrošnje studenta koji ima 450 kn dohotka? Iz našeg pravca imamo ^y 450 = 53:54 + 0:49(450) = 274: 04; iz µcega moµzemo prognozirati da student koji ima 450 kn dohotka trebao bi trošiti 274:04 kn, kao što se jasno vidi iz regresijskog pravca na Slici 2.3. 25

Kolika je autonomna (koja ne ovisi o dohotku) potrošnja studenata? Potrošnja, koja ne ovisi o dohotku, u našem primjeru je 53:54 kn. To je i minimalna potrošnja našeg reprezentativnog studenta kada nema dohotka (x = 0; radi se o minimumu jer za dohodak vrijedi uvjet o nenegativnosti). Gra µcki, kao što je prikazana na Slici 2.3, ta vrijednost oznaµcava odsjeµcak na ordinati regresijskog pravca. 2.2 Svojstva regresijskog pravca Regresijski pravac dobiven metodom najmanjih kvadrata ima sljedeća svojstva: 1. Regresijski pravac prolazi kroz sredinu uzoraka (x i y) kao što se jasno vidi na Slici 2.3. Ovo svojstvo proizlazi iz jednadµzbe 2.6 za izraµcunavanje parametra b 0. Naime, ako je b 0 = y b 1 x (2.18) tada vrijedi da je y = b 0 + b 1 x (2.19) što nam govori da kada x poprima vrijednost svoje sredine x procijenjena vrijednost ^y je y: Drugim rijeµcima regresijski pravac prolazi kroz toµcku (x; y). Primjer 2.2 Lako moµzemo provjeriti da za x = 310 ^y 310 = 53:54 + 0:49(310) = 204 (2.20) ^y poprima vrijednost 3 svoje sredine y = 204, kao što se vidi iz Tablice 2.2. 2. Sredina stvarnog y jednaka je sredini procijenjenog ^y. Svojstvo y = ^y proizlazi iz 4 ^y i = b 0 + b 1 x i = (y b 1 x) + b 1 x i = y + b 1 (x i x) : (2.21) Zbrajanjem lijeve i desne strane jednadµzbe 2.21 dobijemo P ^yi = ny + b 1 P (xi x) : (2.22) 3 Mala se greška pojavljuje u ovome izraµcunu uslijed zaokruµzivanja na dvije decimale. 4 Napomena: ovo svojstvo vrijedi samo ako regresija ima konstantni µclan b 0, jer bez konstantnog µclana, kao što se jasno vidi iz izvoda, ne moµze se izvesti jednadµzba 2.21. 26

Iz P Svojstva B.4 operatora zbrajanja (vidi Dodatak B.1) znamo da (xi x) = 0; što 2.22 pretvara u P ^yi = ny: (2.23) Ako lijevu i desnu stranu jednadµzbe 2.23 podijelimo s n; dobijemo P ^yi = ny n n ^y = y: (2.24) Primjer 2.3 Iz Tablice 2.2 vidimo da je sredina stvarnog y = 204 jednaka sredini procijenjenog ^y = 204. 3. Suma odstupanja je nula 5 ( P e i = 0), što se jasno vidi iz Tablice 2.2. Ovo svojstvo proizlazi iz uvjeta minimizacije kvadrata odstupanja po b 0 prikazanog u jednadµzbi 2.3 @ P (yi b 0 b 1 x i ) 2 = 2 P (y i b 0 b 1 x i ) = 2 P e i = 0 @b 0 (2.25) što povlaµci P e i = 0: Iz toga proizlazi da je i sredina odstupanja e = P ei n = 0: (2.26) 4. Odstupanja e i i procijenjeni ^y i me usobno su neovisni. Kovarijancu izme u e i i ^y i moµzemo izraziti Cov (^y i ; e i ) = 1 np ^y i ^y (e i e) (2.27) n i=1 Iz Svojstva 3. regresijskog pravca znamo da je e = 0; stoga da bi P izraz 2.27 bio nula (neovisnost izme u ovih dviju varijabli) tada ^yi ^y e i mora biti jednak nuli, ili ako pišemo u devijacijskoj formi P e^yi e i = 0: Regresijski pravac za dvije varijable u devijacijskoj formi moµzemo pisati bez konstantnog µclana e^yi = b 1 ~x i : (2.28) Varijable u devijacijskoj formi imaju sredinu nula, stoga regresijski pravac prolazi kroz ishodište (vidi Svojstvo 1. regresijskog pravca), iz µcega proizlazi da je odsjeµcak na ordinati tog pravca jednak nuli, ili drugim rijeµcima b 0 = 0: Na temelju jednadµzbe 2.28 moµzemo pisati P P e^yi e i = b 1 ~xi e i = b 1 P ~xi (~y b 1 ~x i ) = b 1 P ~xi ~y b 2 1 P ~x 2 i : (2.29) 5 Napomena: ovo svojstvo ne vrijedi kada nemamo konstantnog µclana b 0 u regresiji. 27