Procjena funkcije gustoće

Similar documents
LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

TEORIJA SKUPOVA Zadaci

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

Algoritam za množenje ulančanih matrica. Alen Kosanović Prirodoslovno-matematički fakultet Matematički odsjek

Metode izračunavanja determinanti matrica n-tog reda

Quasi-Newtonove metode

Hornerov algoritam i primjene

Sveučilište Josipa Jurja Strossmayera u Osijeku Odjel za matematiku

Mathcad sa algoritmima

KRITERIJI KOMPLEKSNOSTI ZA K-MEANS ALGORITAM

KVADRATNE INTERPOLACIJSKE METODE ZA JEDNODIMENZIONALNU BEZUVJETNU LOKALNU OPTIMIZACIJU 1

Formule za udaljenost točke do pravca u ravnini, u smislu lp - udaljenosti math.e Vol 28.

Neprekidan slučajan vektor

Šime Šuljić. Funkcije. Zadavanje funkcije i područje definicije. š2004š 1

Projektovanje paralelnih algoritama II

1. zadatak. Stupcasti dijagram podataka: F:\STATISTICKI_PRAKTIKUM\1.KOLOKVIJ. . l_od_theta.m poisson.m test.doc.. podaci.dat rjesenja.

Metoda parcijalnih najmanjih kvadrata: Regresijski model

NIZOVI I REDOVI FUNKCIJA

Fajl koji je korišćen može se naći na

Teorem o reziduumima i primjene. Završni rad

pretraživanje teksta Knuth-Morris-Pratt algoritam

KLASIFIKACIJA NAIVNI BAJES. NIKOLA MILIKIĆ URL:

BROWNOV MOST I KOLMOGOROV-SMIRNOVLJEVA STATISTIKA

Slika 1. Slika 2. Da ne bismo stalno izbacivali elemente iz skupa, mi ćemo napraviti još jedan niz markirano, gde će

Ariana Trstenjak Kvadratne forme

Karakteri konačnih Abelovih grupa

ODREĐIVANJE DINAMIČKOG ODZIVA MEHANIČKOG SUSTAVA METODOM RUNGE-KUTTA

ANALYSIS OF THE RELIABILITY OF THE "ALTERNATOR- ALTERNATOR BELT" SYSTEM

Funkcijske jednadºbe

Konformno preslikavanje i Möbiusova transformacija. Završni rad

Fibonaccijev brojevni sustav

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku DIOFANTSKE JEDNADŽBE

Red veze za benzen. Slika 1.

Maja Antolović Algoritmi u teoriji brojeva

Sveučilište J.J.Strossmayera u Osijeku Odjel za matematiku. Sveučilišni preddiplomski studij matematike

GENERALIZIRANI LINEARNI MODELI. PROPENSITY SCORE MATCHING.

Linearno programiranje i primjene

The existence theorem for the solution of a nonlinear least squares problem

Metode praćenja planova

Nelder Meadova metoda: lokalna metoda direktne bezuvjetne optimizacije

Nilpotentni operatori i matrice

Matrice u Maple-u. Upisivanje matrica

THE ROLE OF SINGULAR VALUES OF MEASURED FREQUENCY RESPONSE FUNCTION MATRIX IN MODAL DAMPING ESTIMATION (PART II: INVESTIGATIONS)

Simetrične matrice, kvadratne forme i matrične norme

O aksiomu izbora, cipelama i čarapama

Boundary Correction Methods in Kernel Density Estimation Tom Alberts C o u(r)a n (t) Institute joint work with R.J. Karunamuni University of Alberta

Uvod u relacione baze podataka

Iterativne metode za rješavanje linearnih sustava

χ 2 -test i Kolmogorov-Smirnovljev test

Ivan Soldo. Sažetak. U članku se analiziraju različiti načini množenja matrica. Svaki od njih ilustriran je primjerom.

STACIONARNOST GARCH PROCESA I PRIMJENE

Pellova jednadžba. Pell s equation

Zanimljive rekurzije

Oracle Spatial Koordinatni sustavi, projekcije i transformacije. Dalibor Kušić, mag. ing. listopad 2010.

Matrične dekompozicije i primjene

Fraktalno Brownovo gibanje

Geometrijski smisao rješenja sustava od tri linearne jednadžbe s tri nepoznanice

Položaj nultočaka polinoma

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Sveučilišni nastavnički studij matematike i informatike. Sortiranje u linearnom vremenu

Vedska matematika. Marija Miloloža

Mirela Nogolica Norme Završni rad

Tina Drašinac. Cramerovo pravilo. Završni rad

Prsten cijelih brojeva

ITERATIVNA OPTIMIZACIJA MODELA I PRETRAŽIVANJE PROTEOMA

HRVATSKA MATEMATIČKA OLIMPIJADA

Keywords: anticline, numerical integration, trapezoidal rule, Simpson s rule

Shear Modulus and Shear Strength Evaluation of Solid Wood by a Modified ISO Square-Plate Twist Method

Primjena numeričke metode Runge-Kutta na rješavanje problema početnih i rubnih uvjeta

Krivulja središta i krivulja fokusa u pramenu konika. konika zadanom pomoću dviju dvostrukih točaka u izotropnoj ravnini

Sveučilište J.J. Strossmayera u Osijeku Odjel za matematiku. Velibor Gojić. Blok dizajni. Diplomski rad. Osijek, 2014.

Sveučilište Jurja Dobrile u Puli Odjel za ekonomiju i turizam Dr. Mijo Mirković. Alen Belullo UVOD U EKONOMETRIJU

Matea Ugrica. Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Sveučilišni diplomski studij matematike i računarstva

STATISTICAL ANALYSIS OF WET AND DRY SPELLS IN CROATIA BY THE BINARY DARMA (1,1) MODEL

Pitagorine trojke. Uvod

NAPREDNI FIZIČKI PRAKTIKUM 1 studij Matematika i fizika; smjer nastavnički MJERENJE MALIH OTPORA

ALGORITAM FAKTORIZACIJE GNFS

Erdös-Mordellova nejednakost

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Sveučilišni nastavnički studij matematike i informatike. Mirjana Mikec.

REVIEW OF GAMMA FUNCTIONS IN ACCUMULATED FATIGUE DAMAGE ASSESSMENT OF SHIP STRUCTURES

RESISTANCE PREDICTION OF SEMIPLANING TRANSOM STERN HULLS

Matrice traga nula math.e Vol. 26. math.e. Hrvatski matematički elektronički časopis. Matrice traga nula. komutator linearna algebra. Sažetak.

Uvod u numericku matematiku

Matematika (PITUP) Prof.dr.sc. Blaženka Divjak. Matematika (PITUP) FOI, Varaždin

Grupiranje podataka u skupine 1 Rudolf Scitovski, Odjela za matematiku, Sveučilište u Osijeku 2

Zadatci sa ciklusima. Zadatak1: Sastaviti progra koji određuje z ir prvih prirod ih rojeva.

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku Preddiplomski sveučilišni studij matematike. Završni rad. Tema : Vedska matematika

Sveučilište J. J. Strossmayera u Osijeku Odjel za matematiku

Mersenneovi i savršeni brojevi

1 Pogreške Vrste pogrešaka Pogreške zaokruživanja Pogreške nastale zbog nepreciznosti ulaznih podataka

EXPERIMENTAL ANALYSIS OF THE STRENGTH OF A POLYMER PRODUCED FROM RECYCLED MATERIAL

MATHEMATICAL ANALYSIS OF PERFORMANCE OF A VIBRATORY BOWL FEEDER FOR FEEDING BOTTLE CAPS

PARALELNI ALGORITMI ZA PROBLEM GRUPIRANJA PODATAKA

Razni načini zadavanja vjerojatnosti

Sveučilište u Zagrebu Prirodoslovno matematički fakultet

Sortiranje podataka. Ključne riječi: algoritmi za sortiranje, merge-sort, rekurzivni algoritmi. Data sorting

Harmonijski brojevi. Uvod

O Combining cross-validation and plug-in methods - for kernel density bandwidth selection O

Sparse representations of signals for information recovery from incomplete data

Transcription:

Sveučilište J.J. Strossmayera u Osijeku Odjel za matematiku Jelena Milanović Procjena funkcije gustoće Diplomski rad Osijek, 2012.

Sveučilište J.J. Strossmayera u Osijeku Odjel za matematiku Jelena Milanović Procjena funkcije gustoće Diplomski rad Mentor: Prof. dr. sc. Mirta Benšić Osijek, 2012.

Sadržaj 1. Uvod 1 2. Metode procjene funkcije gustoće 2 2.1. Histogram.................................. 2 2.2. Prirodni (naivni) procjenitelj........................ 4 2.3. Procjenitelj jezgrom............................. 5 2.4. Procjenitelji općenitom težinskom funkcijom............... 6 3. Procjenitelj jezgrom 8 3.1. Definicija jezgre i procjenitelja jezgrom.................. 8 3.2. Aproksimacijska svojstva.......................... 11 3.3. Odabir parametra zagladivanja...................... 18 4. Primjena procjenitelja jezgrom 25 4.1. Procjena podataka dobivenih iz W (1, 1) distribucije........... 27 4.2. Procjena podataka dobivenih iz W (2, 2) i W (2.2, 3.6) distribucije.... 32 4.3. Odabir parametra zagladivanja h Woodroofovim pristupom i metodom unakrsne validacije najmanjih kvadrata.................. 36 Literatura 39 Sažetak 40 Abstract 41 Životopis 42

1 1. Uvod Ovaj diplomski rad bavi se problematikom procjene funkcije gustoće. Rad se sastoji od tri dijela. U cijelom radu se koristimo teriminima slučajne varijable, funkcije gustoće i ostalim pojmovima kojima smo se upoznali u teoriji vjerojatnosti i statistici (vidi [1]). U prvom dijelu rada nabrojane su neke postojeće metode procjene funkcije gustoće. Opisana je metoda histograma, zatim metoda prirodnog (naivnog) procjenitelja, metoda procjene gustoće jezgrom i metoda procjene općenitom težinskom funkcijom. Metoda procjene gustoće jezgom je detaljnije opisana u sljedećem poglavlju. Drugi dio rada obraduje pobliže metodu procjenitelja jezgrom. Prvo je definirana sama funkcija jezgre te zatim i procjenitelj. Dane su kao primjer neke najčešće korištene jezgre. Definirano je kako se mjeri odstupanje pomoću srednjekvadratne greške i integrirane srednjekvadratne greške. Dan je izraz za optimalni parametar zagladivanja koji minimizira integriranu srednjekvadratnu grešku. Nakon toga opisano je nekoliko različitih metoda za odabir parametra zagladivanja. Treći dio rada bavi se primjenom procjenitelja jezgrom. Simulirani su podaci iz Weibullove distribucije W (α, β) za različite vrijednosti parametara α i β. Podaci su procijenjeni procjeniteljem za različite funkcije jezgre te su prikazani dobiveni rezultati.

2 2. Metode procjene funkcije gustoće Za početak, nabrojat ćemo nekoliko metoda za procjenu funkcije gustoće. Pretpostavljamo da imamo slučajan uzorak od n nezavisnih jednako distribuiranih slučajnih varijabli X 1, X 2,..., X n iz funkcije gustoće f koju želimo procijeniti i realizaciju uzorka x 1, x 2,..., x n. Procjenitelja funkcije gustoće označavamo f. Koristit ćemo podatke koje je koristio i Silverman (vidi [2]) za prikaz, odnosno ilustriranje opisanih metoda. Podaci sadržavaju promatranja erupcije gejzira Old Faithful u Nacionalnom parku Yellowstone, SAD i prikazani su u sljedećoj tablici, Tablica 1. 4.37 3.87 4.00 4.03 3.50 4.08 2.25 4.70 1.73 4.93 1.73 4.62 3.43 4.25 1.68 3.92 3.68 3.10 4.03 1.77 4.08 1.75 3.20 1.85 4.62 1.97 4.50 3.92 4.35 2.33 3.83 1.88 4.60 1.80 4.73 1.77 4.57 1.85 3.52 4.00 3.70 3.72 4.52 3.58 3.80 3.77 3.75 2.50 4.50 4.10 3.70 3.80 3.43 4.00 2.27 4.40 4.05 4.25 3.33 2.00 4.33 2.93 4.58 1.90 3.58 3.73 3.73 1.82 4.63 3.50 4.00 3.67 1.67 4.60 1.67 4.00 1.80 4.42 1.90 4.63 2.93 3.50 1.97 4.28 1.83 4.13 1.83 4.65 4.20 3.93 4.33 1.83 4.53 2.03 4.18 4.43 4.07 4.13 3.95 4.10 2.72 4.58 1.90 4.50 1.95 4.83 4.12 Tablica 1: Trajanje erupcije gejzira Old Faithful u minutama (vidi [2]) Od nekoliko nabrojanih metoda, kasnije ćemo se usredotočiti na metodu procjenitelja jezgrom te je opširnije obraditi. 2.1. Histogram Počet ćemo s najstarijom i najčešće korištenom metodom, a to je histogram. Histogram je po dijelovima konstantna funkcija gdje je visina funkcije proporcionalna broju promatranja u svakom stupcu. Kako bismo definirali histogram, pretpostavljamo da imamo skup od n podataka.

3 Od n podataka moramo odabrati jednu izvornu ili početnu točku x 0 te h, širinu stupca i nakon toga definiramo stupce histograma kao intervale [x 0 + mh, x 0 + (m + 1)h) za cijele brojeve m. Sada histogram definiramo na sljedeći način f(x) = 1 nh f i(x), (1) gdje je f i (x) broj X i -ova u istom intervalu kao i x. Kako je već ranije rečeno, da bismo definirali histogram, sami odabiremo početnu ili izvornu točku x 0 i širinu stupca h. Širina stupca h odreduje količinu zagladivanja histograma. To zapravo znači odrediti broj stupaca histograma što nam može stvoriti problem. Ako uzmemo premali broj stupaca, doći će do prevelikog zagladivanja, odnosno ako uzmemo prevelik broj stupaca zagladivanje će biti premalo. Histogram možemo i generalizirati na način da dopustimo da h varira. Pretpostavimo da imamo bilo kakvu podjelu realne linije u intervale. Tada je histogram definiran kao f(x) = 1 f i (x), (2) n h x gdje je f i (x) broj X i -ova u istom intervalu kao i x, a h x širina intervala koji sadrži x. Mogli bismo se upitati zašto uopće koristiti sofisticiranije metode pri procjeni od histograma. Odgovor na to pitanje je da to ovisi o podacima odnosno u koju svrhu nam je potrebna procjena koju radimo. Histogrami su vrlo korisni za prikaz i istraživanje podataka. Veliku ulogu ima odabir početne točke. Naš odabir početne točke ima veliki utjecaj na izgled samog histograma, što ćemo vidjeti na primjeru (Slika 1). Slika 1. Histogrami trajanja erupcija gejzira (iz [2])

4 Na ovim primjerima (Slika 1) se vidi da je odabir početne točke značajan. Oba histograma imaju jednaku širinu stupaca, ali je početna točka drugačija te time i histogram izgleda drugačije. 2.2. Prirodni (naivni) procjenitelj Sljedeća metoda koja se koristi u procjeni funkcije gustoće je prirodni ili naivni procjenitelj. Definirat ćemo prirodni procjenitelj, a zatim i pokazati kako on može biti generalizacija histograma. Znamo da, ako imamo neprekidnu slučajnu varijablu X koja ima funkciju gustoće f, tada je 1 f(x) = lim P (x h < X < x + h). (3) h 0 2h P (x h < X < x + h) možemo procijeniti za svaki dani h pomoću dijela uzorka koji padne u interval (x h, x + h). Sada, ako odaberemo dovoljno mali broj h, možemo definirati naivni procjenitelj na sljedeći način f(x) = 1 2hn f i(x), (4) gdje je f i (x) broj X i -ova koji upadnu u interval (x h, x + h). Kako bi bolje mogli zapisati prethodni izraz, definiramo težinsku funkciju w w(x) = { 1 2 x < 1 0, inače. (5) Sada prirodni procjenitelj možemo zapisati u sljedećem obliku f(x) = 1 n 1 ( x h w Xi ). (6) h Prirodnog procjenitelja možemo povezati sa histogramom. Može se reći da je prirodni ili naivni procjenitelj generalizacija histograma. Promotrimo histogram koji ima stupce širine 2h i pretpostavimo da niti jedno promatranje ne leži na samom rubu niti jednog stupca histograma. Ako pretpostavimo da se x nalazi točno u sredini stupca histograma, dobit ćemo točno naivni procjenitelj. Koristeći naivni procjenitelj, više ne moramo odabirati početnu točku kao što smo morali kod histograma. Preostaje odrediti širinu stupca h koji ima važnu ulogu pri zagladivanju procjene. Kao i kod histograma, moramo paziti da ne uzmemo preveliki h i time dobijemo premalo zagladenu funkciju, odnosno da uzimanjem premalog h dobijemo previše zagladenu funkciju.

5 Vidjeli smo da je prirodni procjenitelj bolji od histograma jer ne moramo odabirati početnu točku, ali ipak niti on nije potpuno zadovoljavajući za procjenu funkcije gustoće. Prirodni procjenitelj nije neprekidna funkcija, ima skokove u X i + h te ima derivacije jednake 0 svugdje drugdje. Sa Slike 2 vidimo da je prirodni procjenitelj stepenasta funkcija. Slika 2. Procjena trajanja erupcija gejzira prirodnim procjeniteljem, h = 0.25 Zbog nabrojanih nedostataka prirodnog procjenitelja, važna je generalizacija kako bismo se riješili tih nedostataka. 2.3. Procjenitelj jezgrom Metodu procjenitelja jezgrom koristimo da bismo riješili nedostatke koje ima metoda naivnog procjenitelja. Ova metoda je zapravo generalizacija metode naivnog procjenitelja. U izrazu (6) težinsku funkciju w zamijenimo funkcijom jezgre K koja zadovoljava uvjet Definiramo procjenitelja jezgrom f(x) = 1 nh K(x)dx = 1. (7) ( x Xi ) K, (8) h

6 gdje je h širina prozora, odnosno parametar zagladivanja. Funkcija jezgre K je najčešće glatka simetrična vjerojatnosna funkcija gustoće ili neka druga težinska funkcija koja zadovoljava uvjet (7). Prirodni procjenitelj definiran izrazom (6) možemo interpretirati kao zbroj svih kutija oko pojedinih promatranja, a procjenitelja jezgrom na analogan način možemo interpretirati kao zbroj svih izbočina oko pojedinih promatranja. Pri tome funkcija jezgre K odreduje oblik izbočina, a h odreduje njihovu širinu. Slika 3. Prikaz pojedinačnih jezgri i njihov zbroj, h=0.4 ([2]) Slika 3 prikazuje na primjeru od 7 podataka pojedinačno za svaki podatak krivulju n 1 h 1 K((x x i )/h) te krivulju koju dobijemo kada ih zbrojimo. Što se tiče svojstava procjenitelja jezgrom, neka elementarna svojstva slijede iz same definicije procjenitelja. Ako smo pretpostavili da je funkcija jezgre K nenegativna funkcija i zadovoljava uvjet (7), što znači da je ona funkcija gustoće, slijedi da je i f funkcija gustoće. Osim toga, procjenitelj jezgrom će od funkcije jezgre naslijediti sva svojstva neprekidnosti i diferencijabilnosti. Opširnije o procjenitelju jezgrom ćemo reći ćemo u sljedećem poglavlju. 2.4. Procjenitelji općenitom težinskom funkcijom Neke od ranije navedenih procjenitelja možemo svrstati u općenitu klasu procjenitelja gustoće. Definiranje općenite klase procjenitelja gustoće omogućuje da se teoretski rezultati mogu primijeniti na sve procjenitelje koji pripadaju toj klasi. Osim toga, to nam omogućuje i da definiramo nekakav procjenitelj koji možda nije točno oblika nekog

7 poznatog navedenog procjenitelja, ali ima odredeni oblik i zadovoljava uvjete koje ćemo navesti. Pretpostavimo da imamo funkciju od dva argumenta w(x, y) koja zadovoljava sljedeće uvjete w(x, y)dy = 1 x, (9) w(x, y) 0 x, y. (10) Procjenitelja općenitom težinskom funkcijom možemo definirati na sljedeći način f(t) = 1 n w(x i, t). (11) Uvjeti (9) i (10) su dovoljni da bi nam osigurali da je procjena f funkcija gustoće, a ostala svojstva će procjenitelj naslijediti od funkcije w(x, ). Funkcija gustoće ima dva bitna svojstva, to su nenegativnost i normiranost. To znači da za f moramo pokazati da vrijedi f(t) 0, t, (12) f(t)dt = 1. (13) Neka je x 1,..., x n realizacija slučajnog uzorka X 1,..., X n. Kako vrijedi (10), slijedi da je i suma n w(x i, t) 0, x i, t pa je i f(t) 0, t. Provjerimo sada normiranost. f(t)dt = 1 n w(x i, t)dt. (14) Suma n w(x i, t) je konačna pa integral i suma mogu zamijeniti mjesta i tada primjenimo uvjet (9). 1 n w(x i, t)dt = 1 w(x i, t)dt n = 1 1 = 1 n = 1. (15) n n Kako je već rečeno, neki od prethodno nabrojanih procjenitelja pripadaju u klasu procjenitelja općenitom težinskom funkcijom. Uzmemo li da je navedena funkcija w(x, y) definirana na sljedeći način

8 w(x, y) = { 1, h(x) 0, inače, ako x i y padnu u isti stupac gdje je h(x) širina stupca u kojem je x, dobit ćemo specijalan slučaj procjenitelja općenitom težinskom funkcijom, a to će upravo biti histogram. Slično možemo doći i do specijalnog slučaja ovog procjenitelja tako da dobijemo procjenitelja jezgrom, postavljajući da je funkcija w(x, y) jednaka 3. Procjenitelj jezgrom (16) w(x, y) = 1 ( y x ) h K. (17) h U ovom poglavlju opširnije će biti obradena metoda procjene funkcije gustoće jezgrom. Ova metoda pripada u jednostavnije metode koja je zajedno sa svojim svojstvima jednostavna za shvatiti, iako to ne znači da je ona najbolji odabir u svakom slučaju. 3.1. Definicija jezgre i procjenitelja jezgrom Pretpostavimo da imamo x 1, x 2,..., x n, realizaciju uzorka nezavisnih jednako distribuiranih slučajnih varijabli X 1,..., X n iz neprekidne univarijatne distribucije s funkcijom gustoće f koju želimo procijeniti. f označava procjenitelja jezgrom K i parametrom zagladivanja h. Definirajmo jezgru K. Jezgru definiramo kao bilo koju glatku funkciju K takvu da je K(x)dx = 1. (18) Definicija 3.1 Za danu jezgru K i pozitivan broj h (bandwidth) procjenitelj jezgrom definiran je f(x) = 1 1 ( x n h K Xi ). (19) h Procjenitelj f ovisi o podacima, jezgri i parametru zagladivanja h. Za svaki x, f(x) možemo smatrati slučajnom varijablom zbog ovisnosti f o uzorku X 1,..., X n. Nabrojat ćemo neke od funkcija jezgri K koje se često koriste. Najčešće korištena funkcija jezgre je normalna: K(t) = 1 e (1/2)t2. (20) 2π

9 Slika 4. Normalna jezgra Osim normalne jezgre često se koristi i kvartna i trokutna jezgra. Definicija kvartne jezgre je sljedeća: K(t) = { 15 16 (1 t2 ) 2, za t < 1 0, inače, (21) a na Slici 5 je i njezin graf. Slika 5. Kvartna jezgra

10 Trokutnu jezgru definiramo sa K(t) = { 1 t, za t < 1 0, inače. (22) Slika 6. Trokutna jezgra Još jedna funkcija jezgre je od vrlo velike važnosti, a to je Epanechnikova jezgra koju ćemo spomenuti kasnije. Nakon procjene funkcije gustoće, važno nam je provjeriti koliko ona odstupa od prave funkcije gustoće, odnosno od gustoće koju smo procjenili. Odstupanje možemo provjeriti na više načina. Ako uzmemo u obzir procjenu u odredenoj točci, prirodna mjera za odstupanje je srednjekvadratna greška definirana sa MSE x ( f) = E( f(x) f(x)) 2 (23) Uzimajući u obzir svojstva očekivanja i varijance, dobijemo MSE x ( f) = (E f(x) f(x)) 2 + V ar f(x), (24) odnosno sumu kvadratne pristranosti i varijance. Želimo li provjeriti odstupanje procjene globalno, najčešće upotrebljavamo integriranu srednjekvadratnu grešku definiranu s MISE x ( f) = E ( f(x) f(x)) 2 dx. (25)

11 Kako je izraz pod integralom nenegativan, očekivanje ulazi pod integral te dobivamo sljedeći izraz MISE x ( f) = = = E( f(x) f(x)) 2 dx MSE x ( f)dx (E f(x) f(x)) 2 dx + V ar f(x)dx. (26) 3.2. Aproksimacijska svojstva Srednjekvadratna greška (MSE) i integrirana srednjekvadratna greška (MISE) su mjere koje pokazuju pogrešku procjene te je zbog toga bitno promatrati što se s njima dogada. Kako se izrazi MSE i MISE sastoje od pristranosti i varijance, izvest ćemo aproksimacijske izraze za njih te ćemo promotriti kako će se oni ponašati. Zbog jednostavnosti pretpostavljamo da je jezgra K simetrična funkcija koja zadovoljava sljedeće uvjete K(t)dt = 1, tk(t)dt = 0, k 2 = t 2 K(t)dt 0 (27) i nepoznata gustoća f ima neprekidne derivacije svakog reda. Pristranost procjenitelja od f(x) ne ovisi izravno o veličini uzorka n, ali ovisi o parametru zagladivanja h. U slučaju da je h odabran kao funkcija od n, tada će neizravno pristranost ovisiti o veličini uzorka. Prvo zapišimo općenito izraze za očekivanje i varijancu procjenitelja. Pretpostavimo da je procjenitelj f procjenitelj općenitom težinskom funkcijom definiran sa (11) u prethodnom poglavlju. Elementarnim manipulacijama slijedi da je za svaki t E f(t) = 1 n Ew(X i, t) = w(x, t)f(x)dx. (28) Kako je pretpostavka za sve X i da su nezavisni, slijedi da je varijanca V ar f(t) = 1 n V ar w(x i, t) = 1 [ { w(x, t) 2 f(x)dx n } 2 ] w(x, t)f(x)dx. (29) Uzimajući da nam je težinska funkcija, funkcija jezgre, tj. koristeći izraz (17) dobiti ćemo sljedeće izraze očekivanja i varijance:

12 E f(x) = 1 ( x y ) h K f(y)dy, (30) h nv ar f(x) = 1 ( x y ) 2f(y)dy h K 2 h { 1 ( x y ) 2. K f(y)dy} (31) h h Zapisati ćemo izraz za pristranost: bias h (x) = E f(x) f(x) = 1 ( x y ) h K f(y)dy f(x). (32) h Izraz (32) iskorist ćemo da bi dobili približnu vrijednost izraza za pristranost. Napravimo supstituciju y = x ht i iskoristimo pretpostavku K(t)dt = 1 te zapišimo bias h (x) = K(t)f(x ht)dt f(x) = Funkciju f(x ht) razvijemo u Taylorov red: K(t){f(x ht) f(x)}dt. (33) f(x ht) = f(x) htf (x) + 1 2 h2 t 2 f (x) + (34) te zajedno s pretpostavkama (27) o jezgri K dobijemo bias h (x) = hf (x) tk(t)dt + 1 2 h2 f (x) t 2 K(t)dt + = 1 2 h2 f (x)k 2 + izrazi višeg reda za h. (35) Sada smo dobili izraz za integriranu kvadratnu pristranost bias h (x) 2 dx 1 4 h4 k 2 2 f (x) 2 dx (36) te još treba izračunati izraz za varijancu procjenitelja da bi na kraju dobili približnu vrijednost MISE-a. Iz formula (30) i (31) možemo zapisati varijancu procjenitelja f(x) koristeći kao i prethodno supstituciju y = x ht te prethodno dobiveni izraz za pristranost.

13 V ar f(x) = 1 n 1 nh 1 ( x y h K 2 h ) 2f(y)dy 1 n {f(x) + bias h(x)} 2 f(x ht)k(t) 2 dt 1 n {f(x) + O(h2 )} 2. (37) Ako pretpostavimo da je h mali, a n vrlo velik, možemo koristiti razvoj f(x ht) u Taylorov red te za varijancu dobijemo izraz V ar f(x) 1 nh 1 nh f(x) {f(x) htf (x) + }K(t) 2 dt + O(n 1 ) K(t) 2 dt. (38) Znamo da je f funkcija gustoće, prema pretpostavkama te integriranjem prethodnog izraza po x dobivamo V ar f(x)dx 1 K(t) 2 dt. (39) nh Nakon što smo izračunali približne vrijednosti, zbrajanjem (36) i (39) dobijemo aproksimaciju MISE-a: 1 4 h4 k2 2 f (x) 2 dx + 1 K(t) 2 dt. (40) nh Kada smo dobili približnu vrijednost integrirane srednjekvadratne greške, cilj nam je odabrati h tako da ona bude što manja. Želimo li eliminirati pristranost pri smanjivanju MISE-a, odabrat ćemo malu vrijednost h, ali tada će doći do povećanja integrirane varijance. Ako, u suprotnom, želimo smanjiti vrijednost integrirane varijance, moramo odabrati veći h, ali to dovodi do povećanja pristranosti. Ovdje dolazi do tzv. bias-variance tradeoff, tj. do uravnoteženja izmedu pristranosti i varijance. To znači da pri odabiru parametra zagladivanja procjene funkcije gustoće s porastom vrijednosti parametra zagladivanja raste pristranost, a varijanca se smanjuje i obratno. Tražimo idealnu vrijednost za parametar zagladivanja h koji će nam dati što manju vrijednost izraza (40). Nju možemo dobiti minimiziranjem izraza (40) i korištenjem sljedeće leme.

14 Lema 3.1 [4, str. 1074] Neka su A, B, α i β dani pozitivni brojevi. Tada ) min (Ax α + Bx β x>0 ( = A 1 + α β Vrijednost x u kojem je postignut minimum je )( βb αa {( A = (α + β) β ) α α+β ) β ( B α ) α } 1 α+β. (41) x min = ( βb ) 1 α+β. αa Dokaz: Lako se pokaže da je x min minimum funkcije Ax α + Bx β. izjednačimo je s 0. Aαx α 1 Bβx β 1 = 0 Aαx α 1 = Bβx β 1 x α 1+β+1 = βb αa x = ( βb αa ) 1 α+β Derivirajmo funkciju i (42) Deriviramo Ax α + Bx β još jednom i uvrstimo dobiveni x. ( βb α 2 ) 1 α+β (α 1) αa α 3 ( βb β 1 ) 1 α+β + (β + 1) αa β 2 Kako su α i β veći od 0, gornji izraz je takoder veći od 0. To znači da je izračunati x minimum funkcije Ax α + Bx β. Želimo minimizirati izraz (40) po h i primijeniti lemu, odnosno tražimo min h>0 [ 1 4 h4 k 2 2 f (x) 2 dx + 1 nh Prema lemi, pozitivni brojevi A, B, α i β su: (43) ] K(t) 2 dt. (44)

15 A = 1 4 k2 2 B = 1 n α = 4, f (x) 2 dx, K(t) 2 dt, β = 1. (45) Tražimo h koji je optimalan pa ćemo ga označiti sa h opt. h koji minimizira približnu vrijednost MISE-a, prema lemi je h opt = = ( βb αa ( 1 1 n 4 1 4 k2 2 ) 1 α+β K(t)2 dt f (x) 2 dx = n 1/5 ( K(t)2 dt) 1/5 k 2/5 2 ( f (x) 2 dx) 1/5 = k 2/5 2 ) 1 4+1 { } 1/5 { 1/5n K(t) 2 dt f (x) dx} 2 1/5. (46) Sada kad smo našli optimalnu vrijednost h, h opt možemo vratiti u formulu za MISE kako bismo dobili njezinu približnu vrijednost. Vrijednosti za h 4 opt i h 1 opt iz izraza za MISE su sljedeće: { h 4 opt = k 8/5 2 { h 1 opt = k 2/5 2 } 4/5 { K(t) 2 dt f (x) 2 dx} 4/5n 4/5, (47) } 1/5 { 1/5n K(t) 2 dt f (x) dx} 2 1/5. (48) Vratimo ove vrijednosti u izraz koji smo minimizirali i sredimo ga te ćemo dobiti približnu vrijednost za MISE: { 1 } 4/5 { } 4/5n 4 k 8/5 2 K(t)2 dt f (x) 2 dx 4/5 k 2 2 f (x) 2 dx { } 1/5 { + 1 } 1/5n n k2/5 2 K(t)2 dt f (x) 2 dx 1/5 K(t)2 dt { } 4/5 { = n 4/5 k 2/5 } 1/5 2 K(t)2 dt f (x) 2 dx 5. (49) 4

16 Zbog jednostavnosti zapisa uvodimo sljedeću oznaku { C(K) = k 2/5 4/5. 2 K(t) dt} 2 (50) Sada približnu vrijednost MISE-a možemo zapisati kao 5 { 4 C(K) f (x) 2 dx} 1/5n 4/5. (51) Vratimo li se na trenutak na izraz (46) za optimalnu vrijednost h vidimo da ona nije baš najbolja jer sama vrijednost ovisi o funkciji gustoće koju procjenjujemo. Ipak, iz tog izraza možemo zaključiti kako će parametar zagladivanja h konvergirati ka nuli kako se povećava veličina uzorka, iako vrlo sporo. Vratimo se sada na izraz (51). Vidimo da bi teoretski bilo moguće dobiti malu vrijednost za MISE kada bismo izabrali funkciju jezgre takvu da C(K) postane mala vrijednost, pri tome ne mijenjajući ništa drugo. To znači da moramo minimizirati vrijednost C(K). Minimiziranje C(K) svodi se zapravo na minimiziranje K(t)2 dt po svim jezgrama K takvim da su K(t)dt i t2 K(t)dt oba jednaka 1. Rješenje ovog problema ([8]) dobije se ako se za funkciju jezgre K(t) postavi funkcija K e (t) = { 3 4 (1 1 5 5 t2 ), 5 t 5 0, inače. Ovu funkciju jezgre u procjeni funkcije gustoće prvi put je predložio Epanechnikov (1969.) te se često iz tog razlog naziva Epanechnikovom jezgrom. (52) Slika 7. Epanechnikova jezgra

17 Kako nam Epanechnikova jezgra rješava problem minimizacije izraza (50) usporedivanjem bilo koje druge simetrične jezgre K sa Epanechnikovom jezgrom možemo razmotriti efikasnost promatrane jezgre. Efikasnost definiramo sa eff(k) = = } 5/4 { C(Ke ) C(K) 3 { 5 5 } 1/2 { 1. t 2 K(t)dt K(t) dt} 2 (53) U sljedećoj tablici su navedene neke jezgre K i njihova efikasnost. Vidimo da su sve efikasnosti blizu jedinice. To znači da odabir jezgre na temelju MISE-a ne igra preveliku ulogu te da je odabir jezgre bolje temeljiti na nekom drugom argumentu. Jezgra K(t) Efikasnost Epanechnikova 3 4 (1 1 5 t2 )/ 5 za t < 5, 0, inače 1 Kvartna 15 16 (1 t2 ) 2 za t < 1, 0, inače T rokutna 1 t za t < 1, 0, inače ( 3087 3125) 1/2 0.9939 ( 243 250) 1/2 0.9859 Normalna 1 2π e (1/2)t2 ( 36π 125 ) 1/2 0.9512 P ravokutna 1 2 za t < 1, 0, inače ( 108 125) 1/2 0.9295 Tablica 2: Jezgre i njihova efikasnost (vidi [2])

18 3.3. Odabir parametra zagladivanja Problem zagladivanja je vrlo važno pitanje pri procjeni funkcije gustoće. Bitno je što bolje odabrati parametar zagladivanja kako se ne bi dogodilo da previše ili premalo zagladimo krivulju funkcije gustoće. Način odabira parametra zagladivanja ovisi i o tome u koju svrhu radimo procjenu funkcije gustoće. Ako npr. procjenu funkcije gustoće radimo kako bi istražili podatke te ponudili na temelju toga nekakav model ili hipotezu, odabir parametra zagladivanja mora biti subjektivan. Mnoge primjene procjena funkcije gustoće zahtijevaju automatski odabir parametra zagladivanja. Automatski odabir parametra zagladivanja može biti potpuno automatski ili samo poslužiti kao prvi korak u odabiru parametra zagladivanja nakon kojeg slijedi subjektivan odabir parametra. Kako još uvijek nema jedinstvenog rješenja za ovaj problem, tj. za odabir parametra zagladivanja, nabrojat ćemo nekoliko metoda za to. Prvo ćemo reći nešto o subjektivnom odabiru. Prirodan način odabira parametra zagladivanja je nacrtati nekoliko krivulja sa različitim vrijednostima parametra te odabrati procjenu koja se u najvećoj mjeri slaže sa početnim zamislima o gustoći. Ovaj način odabira parametra zagladivanja je sasvim zadovoljavajući za mnoge svrhe u koje koristimo procjenu. Ako nacrtamo više krivulja sa različitim parametrima zagladivanja, možemo možda nešto zaključiti o podacima nego kada bi uzeli samo jednu automatski dobivenu krivulju. Jedna od potpuno automatskih metoda za odabir parametra zagladivanja je metoda unakrsne validacije najmanjih kvadrata. Zasnovana je na vrlo jednostavnoj ideji. Predložili su je Rudemo 1982. i Bowman 1984. Za svakog procjenitelja f gustoće f integrirana kvadratna greška se može zapisati u sljedećem obliku: ( f(x) f(x)) 2 dx = f(x) 2 dx 2 f(x)f(x)dx + f(x) 2 dx. (54) Posljednji izraz prethodne formule f(x)2 dx ne ovisi o procjenitelju f(x). Idealan parametar zagladivanja možemo dobiti minimiziranjem prethodne formule, a zbog gore navedenog minimiziranje integrirane kvadratne greške odgovara minimiziranju samo prva dva izraza u (54). To znači da ćemo minimizirati R( f) definiranog sa: R( f) = f(x) 2 dx 2 f(x)f(x)dx, (55)

19 gdje je f(x) = 1 n 1 ( x h K Xi ). (56) h Osnovni princip ove metode za odabir parametra zagladivanja jest procijeniti R( f) iz samih podataka te tu procjenu minimizirati po h. Definirajmo f i sa f i (x) = (n 1) 1 h 1 K{h 1 (x X j )}. (57) f i je procjenitelj funkcije gustoće dobiven iz svih podataka osim i-tog. Sljedeće definiramo M 0 (h) M 0 (h) = j=1 j i f(x) 2 dx 2n 1 f i (X i ). (58) Ideja metode unakrsne validacije najmanjih kvadrata je minimizacija M 0 (h). Promotrimo očekivanu vrijednost od M 0 (h) [ EM 0 (h) = E = E f(x) 2 dx 2n 1 f(x) 2 dx 2En 1 ] f i (X i ) Pogledajmo sada očekivanje posljednjeg dijela prethodnog izraza f i (X i ). (59) En 1 f i (X i ) = E f n (X n ) = E f n (x)f(x)dx = E f(x)f(x)dx. (60) Posljednja jednakost vrijedi jer očekivanje procjenitelja jezgrom ovisi samo o jezgri i parametru zagladivanja, a ne o veličini uzorka. Dobiveni izraz vratimo u prethodnu formulu za očekivanje od M 0 (h) EM 0 (h) = E f(x) 2 dx 2E f(x)f(x)dx. (61)

20 Vratimo se sada na izraz (55) i pogledajmo njezino očekivanje. ER( f) ( = E = E f(x) 2 dx 2 f(x) 2 dx 2E ) f(x)f(x)dx f(x)f(x)dx (62) Vidimo da je EM 0 (h) = ER( f). Iz formule (54) vidimo da je M 0 (h)+ f(x)2 nepristrani procjenitelj integrirane srednjekvadratne greške pa kako je f(x)2 jednaka za svaki h, minimiziranje EM 0 (h) odgovara minimiziranju integrirane srednjekvadratne greške. Pretpostavljajući da je izraz koji minimizira M 0 blizak izrazu koji minimizira EM 0, možemo se nadati da će minimizacija M 0 dati dobar odabir za parametar zagladivanja h. Prije nego počnemo s računanjem, odnosno minimiziranjem M 0 (h) definirat ćemo K (2) da bi M 0 (h) bio jednostavniji za računanje. K (2) definiramo kao konvoluciju jezgre sa samom sobom, tj. K (2) (x) = K(x y)k(y)dy. (63) K (2) zadovoljava iste pretpostavke kao funkcija jezgre K s dodatnim uvjetom K (2) (0) = K(y) 2 dy > 0. (64) Osim navedenih pretpostavki, K je dalje ograničena zahtjevom da je K (2) (0) < 2K(0) (što nužno mora vrijediti ako je K nenegativna i K(0) = max x K(x)). Pretpostavljamo da je K simetrična. Sada zapisujemo M 0 (h) u formi primjerenijoj za računanje. Prvo ćemo zapisati prvi dio izraza M 0 (h) u drugačijem obliku. Koristit ćemo supstituciju u = h 1 x. f(x) 2 dx = ( n 1 h 1 K{h 1 (x X i )} ) n 1 h 1 K{h 1 (x X j )} dx j=1 = n 2 h 1 = n 2 h 1 j=1 j=1 K(h 1 X i u)k(u h 1 X j )du K (2) {h 1 (X i X j )} (65)

21 Drugi dio izraza M 0 (h) takoder se može zapisati u drugačijem obliku n 1 f i (X i ) = n 1 (n 1) 1 h 1 K{h 1 (X i X j )} = n 1 (n 1) 1 j=1 j i h 1 K{h 1 (X i X j )} (66) j=1 (n 1) 1 h 1 K(0). Spajanjem izraza (65) i (66) dobivamo izraz za M 0 (h) u drugačijem obliku M 0 (h) = n 2 h 1 K (2) {h 1 (X i X j )} j=1 2 [n 1 (n 1) 1 ] (n 1) 1 h 1 K(0). h 1 K{h 1 (X i X j )} (67) Kako bismo još više olakšali posao u računanju i pojednostavili izraz koji ćemo minimizirati, zamijenit ćemo u prethodnom izrazu (67) (n 1) 1 u n 1 te tako dobiti funkciju M 1 (h). j=1 M 1 (h) = n 2 h 1 K (2) {h 1 (X i X j )} j=1 2 [n 1 n 1 h 1 K{h 1 (X i X j )} j=1 ] n 1 h 1 K(0) = n 2 h 1 K (2) {h 1 (X i X j )} 2n 2 h 1 j=1 j=1 K{h 1 (X i X j )} +2n 1 h 1 K(0) (68)

22 M 1 (h) = n 2 h 1 [ Definirajmo funkciju K takvu da je Sada (69) možemo zapisati kao j=1 ( K (2) {h 1 (X i X j )} (69) )] 2K{h 1 (X i X j )} + 2n 1 h 1 K(0) K (t) = K (2) (t) 2K(t). (70) M 1 (h) = n 2 h 1 K {h 1 (X i X j )} + 2n 1 h 1 K(0). (71) j=1 Osobito važan rezultat koji opravdava metodu unakrsne validacije najmanjih kvadrata dao je Stone 1984.(vidi [9]). Teorem 3.1 Za dani uzorak X 1,..., X n iz gustoće f, neka je I lsxv (X 1,..., X n ) integrirana kvadratna greška procjene gustoće dobivene koristeći parametar zagladivanja koji minimizira funkciju M 1 (h) za h 0. Neka je I opt (X 1,..., X n ) integrirana kvadratna greška procjene gustoće ako je h odabran optimalno za ovaj uzorak, tj. ako je h minimalna vrijednost od ( f(x) f(x)) 2 dx po svim h. Pretpostavka je da je f ograničena funkcija. Tada s vjerojatnošću 1 I lsxv (X 1,..., X n ) I opt (X 1,..., X n ) 1 za n. Stoneov teorem nam govori da unakrsna validacija najmanjih kvadrata asimptotski daje najbolji odabir parametra zagladivanja u smislu minimizacije integrirane kvadratne greške. Sljedeća metoda koju možemo koristi pri odabiru parametra zagladivanja je tzv. test graf metoda. Razvio ju je Silverman (1978, vidi [3]). Ova metoda je djelomično subjektivna. U pozadini ove metode stoji teorem iz Silvermanova rada ( [3], Theorem 1, str.2). Teorem nam govori sljedeće: Pretpostavimo da je K simetrična i dva puta diferencijabilna funkcija jezgre koja zadovoljava odredene uvjete te da je x2 K(x)dx 0. Pretpostavimo i da nepoznata funkcija gustoće f ima uniformno neprekidnu i ograničenu drugu derivaciju. Neka je h odabran kao funkcija od n (h minimizira maksimalnu grešku u procjeni).

23 Sada, koristeći istu širinu h slijedi za n sup f E f sup E f k, (72) gdje k ovisi samo o jezgri i dana je sa k = 1 2 { x 2 K(x)dx K (x) 2 dx} 1/2. (73) K(x)2 dx Izraz f E f je slučajan šum, a E f je trend krivulje. Za dobru procjenu gustoće, magnituda šuma u f biti će oko polovice maksimalne vrijednosti trenda ove krivulje ([3]). Postupak test graf metode je sljedeći: nacrtamo test grafove druge derivacije od f za različite vrijednosti h. h koji ćemo odabrati za procjenu funkcije gustoće je onaj za koji nam je test graf idealan. Idealan test graf je onaj koji ima brze fluktuacije koje su dosta značajne, ali ne zasjenjuju sustavne oscilacije u potpunosti. Još jedan način na koji možemo doći do parametra zagladivanja je unutarnja procjena grubosti gustoće. Vratimo se na izraz (46) za optimalni parametar zagladivanja, odnosno promotrimo optimalni h. Definirajmo α(k) = k 2/5 2 { K(t)2 dt} 1/5 i β(f) = ( f 2 (x)dx) 1/5 i zapišimo jednadžbu za optimalni h u novom obliku h opt = α(k)β(f)n 1/5. (74) Pristup koji slijedi je predložio Woodroofe (1970., vidi [13]). On je formulirao pristup temeljen na srednjekvadratnoj grešci pri procjeni gustoće u točci, a ne na integriranoj srednjekvadratnoj grešci, ali je osnovna ideja jednaka. Pristup je sljedeći: koristimo početnu vrijednost parametra zagladivanja h 0 kako bismo dobili β(h 0 ) što je procjena od β(f). Tu procjenu vratimo u formulu za h opt kako bismo dobili stvarni h za procjenu gustoće. Procjena od β(f) dana je sa β(h 0 ) = ( f 2 0 (x)dx) 1/5 = β( f 0 ), (75)

24 gdje je f 0 procjena gustoće konstruirana iz podataka s parametrom zagladivanja h 0. Parametar zagladivanja h koji ćemo koristiti za procjenu gustoće će biti h 1 = α(k) β(h 0 )n 1/5. (76) Nedostatak je naravno što se ipak mora odabrati neki h 0 kako bi mogli započeti s procjenom. Woodrofe kaže da je odabir h 0 ipak manje osjetljiv zadatak nego odabir stvarnoga h za procjenu. Scott, Tapia i Thompson (1977., vidi [14]) su, da bi izbjegli problem odabira početne vrijednosti h 0, predložili iterativni pristup. Postupak je sljedeći: počinjemo sa velikim h 0, a zatim ostale h 1, h 2,... dobijemo pomoću jednadžbe Iteracije se nastavljaju do konvergencije. Odabire se h takav da je najveće rješenje jednadžbe h i = α(k) β(h i 1 )n 1/5. (77) h = α(k) β(h)n 1/5. (78) Nazovimo to rješenje h s. U praksi, brže bismo dobili rješenje rješavajući (78) Newtonovom metodom nego iteracijom. Moglo bi se dogoditi da dobijemo degenerativno rješenje h = 0, ali najčešće bi postojao barem jedan strogo pozitivan korijen. Dobar h za procjenu gustoće neće dati jako dobru procjenu druge derivacije i stoga se ne može očekivati da je β(f) dobro procijenjeno s β(h). Ipak, Scott, Tapia i Thompson (1977.) su u svojim studijama pokazali da je h s razumno dobar odabir parametra zagladivanja za različite modele.

25 4. Primjena procjenitelja jezgrom U ovom poglavlju pokazat ćemo kako primijeniti procjenitelja jezgrom na podatke. Podaci će biti simulirani iz Weibullove dvoparametarske distribucije (W (α, β)). Funkcija gustoće Weibullove distribucije je f(x) = β α β xβ 1 e ( x α )β, x 0, (79) gdje su parametri α i β pozitivni realni brojevi. Parametar α se naziva parametrom skaliranja, a parametar β parametar oblika. Kako je parametar β parametar oblika, on odreduje oblik Weibullove funkcije gustoće. Kako mijenjamo β tako i Weibullova funkcija gustoće poprima različite oblike. Ako je parametar β = 1 Weibullova distribucija postaje eksponencijalna distribucija. Za β = 2 Weibullova distribucija je Rayleigheva distribucija. Ako je parametar β postavljen na vrijednost izmedu 3 i 4, tj. 3 < β < 4 oblik grafa Weibullove distribucije sličan je normalnoj distribuciji ([15]). Za vrijednost β = 3.6 Weibullova distribucija najviše nalikuje normalnoj. Slika 8 prikazuje grafove funkcija gustoća Weibullove distribucije za različite vrijednosti parametara. Slika 8. Weibullova distribucija

26 Primjeri primjene procjenitelja jezgrom napravljeni su u programskom paketu Wolfram Mathematica 8.0. Svaki primjer sadrži ugradenu funkciju Mathematice za Weibullovu distribuciju te je i funkcija gustoće Weibullove distribucije dobivena ugradenom funcijom iz Mathematice. f[x_] := PDF[WeibullDistribution[1, 1], x] Podatke smo takoder simulirali pomoću ugradene funkcije: RandomVariate[WeibullDistribution[1, 1], 250]. Svi primjeri su napravljeni tako da prate sve formule koje su opisane u prethodnim poglavljima. Definiran je procjenitelj jezgrom, posebno su definirane normalna, kvartna i Epanechnikova jezgra te izraz za optimalni parametar zagladivanja. Na samom kraju svakog primjera korištena je ugradena funkcija za procjenu jezgrom koju smo primijenili na simulirane podatke. KernelMixtureDistribution[data] U primjeru u kojem je h odabran metodom unakrsne validacije najmanjih kvadrata, nakon definiranja funkcije M 1 (h), koristimo još jednu ugradenu funkciju Mathematice, a to je funkcija za minimizaciju. Minimize[m1[h], h]

27 4.1. Procjena podataka dobivenih iz W (1, 1) distribucije Simulirali smo podatke iz gore opisane Weibullove distribucije s parametrima α = 1, β = 1. Kako je već ranije rečeno, Weibullova distribucija za parametar β = 1 postaje eksponencijalna distribucija. Funkcija gustoće W eibullove(1, 1) distribucije je f(x) = e x, x 0. (80) Simulirano je 250 podataka iz W (1, 1). Definirali smo procjenitelja jezgrom kako je zadano definicijom (3.1). Pri procjeni, za jezgru K(x) su redom odabrane sljedeće jezgre: normalna K(x) = 1 2π e (1/2)x2, kvartna K(x) = 15 16 (1 x2 ) 2 za x < 1, Epanechnikova K(x) = 3 4 (1 1 5 x2 )/ 5 za x < 5. U primjeru je za svaku jezgru napravljen isti postupak. Prvo smo provjerili vrijede li svojstva (27), tj. je li K(x)dx = 1, xk(x)dx = 0 i x 2 K(x)dx = k 2 0. (81) Tablica 3 prikazuje vrijednosti integrala za svaku zadanu jezgru. K(x)dx = 1 xk(x)dx = 0 k 2 = x2 K(x)dx 0 N ormalna 1 0 1 Kvartna 1 0 1/7 Epanechnikova 1 0 1 Tablica 3: Jezgre i vrijednosti integrala iz uvjeta Kako su uvjeti za odabrane jezgre K(x) ispunjeni, prešli smo na odabir parametra zagladivanja. Prva metoda koja je korištena je izračun optimalnog h po formuli (46). Kada smo dobili h, izračunali smo procjenu jezgrom.

28 Nakon toga računali smo integriranu srednjekvadratnu grešku (MISE), integriranu varijancu te integriranu kvadratnu pristranost (bias). Druga metoda koju smo koristili pri odabiru parametra zagladivanja je test graf metoda koja je takoder opisana prije u radu. Kada smo odabrali h za svaku jezgru i izračunali f(x), ponovno smo kao i u prethodnom slučaju računali integriranu srednjekvadratnu grešku (MISE), integriranu varijancu te integriranu kvadratnu pristranost (bias). Postupak odabira parametra h test graf metodom opisan je na primjeru malo kasnije. h opt MISE V ar f(x)dx bias(x)2 dx N ormalna 0.295595 0.00477164 0.00381732 0.000954329 Kvartna 0.775232 0.00460692 0.00368553 0.000921383 Epanechnikova 0.292652 0.00458443 0.00366754 0.000916885 h tg N ormalna 0.27 0.00484348 0.00417918 0.000664301 Kvartna 0.8 0.00461633 0.00357143 0.0010449 Epanechnikova 0.3 0.00459021 0.00357771 0.0010125 Tablica 4: Rezultati izračuna parametra zagladivanja h Iz prikazane Tablice 4 možemo vidjeti koja procjena je najbolja, to je procjena sa najmanjom integiranom srednjekvadratnom greškom. Rezultate tablice možemo gledati na više načina. Ako želimo vidjeti koja je najbolja procjena općenito za zadane jezgre i metode odabira parametra h, moramo usporediti sve dobivene integrirane srednjekvadratne greške. Iako sve procjene imaju dosta bliske vrijednosti za M ISE, vidimo da najmanji ima procjena u kojoj je korištena Epanechnikova jezgra i gdje je h dobiven izračunom optimalnog h. S druge strane, možemo gledati kada je procjenitelj jezgrom bolji za svaku jezgru posebno, tj. je li procjena bolja kada je h odabran optimalno ili kada je odabran test graf metodom. Vidimo da je za svaku jezgru bolja procjena dobivena kada je h odabran optimalno. To je i očekivano budući je odabir optimalnog h automatska metoda, a odabir h test graf metodom velikim dijelom ovisi o subjektivnom odabiru osobe koja vrši procjenu. Na Slikama 9 i 10 prikazan je graf funkcije gustoće Weibullove distribucije iz koje su simulirani podaci i grafovi procjena.

29 Slika 9. Procjena normalnom jezgrom i prava funkcija gustoće Slika 10. Procjena kvartnom i Epanechnikovom jezgrom i prava funkcija gustoće Vidimo sa prethodnih slika da procjene imaju isti oblik. Kada bismo sve procjene stavili na isti graf, na većem dijelu bi se preklopile i ne bi se vidjela razlika. To je zapravo vidljivo i iz Tablice 4 jer su vrijednosti svih integriranih srednjekvadratnih grešaka vrlo bliske.

30 Sa Slika 9 i 10 je vidljivo da na intervalu izmedu 0 i otprilike 0.5 procjena ne prati pravu funkciju gustoće, ali nakon tog dijela procjena je dobra. Test graf metodu smo već ranije opisali teoretski, a sada ćemo pokazati njezinu primjenu na primjeru. Metodu ćemo prikazati na procjenitelju normalnom jezgrom. Imamo simulirane podatke (250 podataka iz W (1, 1)). Napravimo procjenu normalnom jezgrom i računamo njezinu drugu derivaciju. Nakon toga odabiremo nekoliko različitih vrijednosti za parametar zagladivanja h, računamo vrijednosti drugih derivacija procjene i prikazujemo njezine grafove. U ovom primjeru prikazani su grafovi druge derivacije procjene za vrijednosti parametra zagladivanja h = 0.1, 0.2, 0.27, 0.36 redom. Slika 11. Test grafovi za procjenu normalnom jezgrom Sa Slike 11 ćemo odabrati graf koji nam odgovara i time ćemo dobiti odgovarajući parametar zagladivanja koji ćemo iskoristiti u procjeni. Vidimo da prvi graf ima vrlo velike fluktuacije te nam h = 0.1 koji je odabran neće odgovarati za procjenu jezgrom. Ovaj test graf je pregrub. S druge strane posljednji test graf koji smo dobili odabirom h = 0.36 ima premale fluktuacije te iz razloga što je on pregladak, njega takoder nećemo odabrati.

31 Sada gledamo koji od preostala 2 grafa bi bio odgovarajući. Iako je na oba grafa vidljivo da su se fluktuacije smanjile, na grafu dobivenom sa parametrom h = 0.2 još uvijek su fluktuacije dosta jake te iz tog razloga biramo treći graf. Kada smo odabrali koji parametar h će biti odgovarajući, nastavljamo dalje s procjenom. Računamo procjenu jezgrom i nastavljamo jednako kao kad smo računali optimalni h. Veliki nedostatak ove metode je što se odabir parametra h vrši prostim okom te zbog toga one ne može dati toliko dobre rezlultate kao neka druga metoda. Na samom kraju ovog primjera napravljena je i procjena jezgrom sa naredbom ugradenom u Wolframovoj Mathematici. Na podatke se primjenjuje naredba KernelMixtureDistribution[data]. Ona daje vjerojatnosnu distribuciju koju možemo koristiti. Ako nije drugačije zadano, ova naredba koristi normalnu jezgru i h odabire Silvermanovim pravilom ( rule-ofthumb, [2, str. 45]). Slika 12. Procjena dobivena sa KernelMixtureDistribution naredbom i procjene normalnom, kvartnom i Epanechnikovom jezgrom i optimalnim h Na Slici 12 plavom bojom nacrtan je graf procjene dobivene naredbom KernelMixtureDistribution. Vidimo da je ta procjena vrlo bliska procjenama koje smo dobili koristeći normalnu, kvartnu i Epanechnikovu jezgru i optimalni h.

32 4.2. Procjena podataka dobivenih iz W (2, 2) i W (2.2, 3.6) distribucije Jednakim postupkom kao i prethodnom dijelu rada, napravljene su procjene za podatke simulirane iz Weibullove distribucije W (2, 2) i W (2.2, 3.6). Postupak odabira parametra h, računanje procjene i svih drugih rezultata jednak je postupku koji smo radili kada smo imali podatke simulirane iz W (1, 1). Prvo ćemo opisati procjenu podataka simuliranih iz W (2, 2) distribucije. Simulirano je 200 podataka. Funkcija gustoće W (2, 2) distribucije f(x) = 1 x2 xe ( 4 ), x 0. (82) 2 Korištene su normalna, kvartna i Epanechnikova jezgra, vrijede rezultati iz Tablice 3. h opt MISE V ar f(x)dx bias(x)2 dx N ormalna 0.343779 0.00512857 0.00410286 0.0102571 Kvartna 0.901599 0.00495152 0.00396122 0.000990304 Epanechnikova 0.340356 0.00492735 0.00394188 0.00098547 h tg N ormalna 0.25 0.00592876 0.0056419 0.000286861 Kvartna 0.8 0.00507815 0.00446429 0.000613868 Epanechnikova 0.35 0.00493526 0.00383326 0.001102 Tablica 5: Rezultati izračuna parametra zagladivanja h Tablica 5 prikazuje za svaku jezgru vrijednost parametra zagladivanja dobivenog s dvije različite metode i integriranu srednjekvadratnu grešku. Vidimo da je općenito najbolja procjena jezgrom, tj. da najmanju vrijednost integrirane srednjekvadratne greške ima procjena Epanechnikovom jezgrom s optimalnim h = 0.340356. Ako je h odabran pomoću druge metode, odnosno test graf metode, najbolja procjena je ponovno procjena Epanechnikovom jezgrom s vrijednosti parametra h = 0.35. Na Slikama 13 i 14 prikazani su grafovi procjene jezgrom i prava funkcija gustoće.

33 Slika 13. Procjena kvartnom jezgrom i prava funkcija gustoće Slika 14. Procjena normalnom i Epanechnikovom jezgrom i prava funkcija gustoće Vidimo na Slikama 13 i 14 da su sve procjene vrlo slične i da su stvarno bliske pravoj funkciji gustoće.

34 Kao i u prethodnom primjeru, i za podatke iz distribucije W (2, 2) napravili smo procjenu u Mathematici sa ugradenom naredbom. Na sljedećoj slici vidimo da se procjena dobivena naredbom KernelMixtureDistribution podudara sa svim procjenama koje smo računali sa optimalnim h. Slika 15. Procjena dobivena sa KernelMixtureDistribution naredbom i procjene normalnom, kvartnom i Epanechnikovom jezgrom i optimalnim h Sljedeće procjene radili smo na podacima simuliranim iz Weibullove distribucije sa parametrima α = 2.2 i β = 3.6. Funkcija gustoće je f(x) = 3.6 2.2 3.6 x2.6 e ( x 4 )3.6, x 0. (83) Simulirali smo 300 podataka. Kao i prethodno koristimo jednake jezgre i jednake metode odabira parametra zagladivanja. h opt MISE V ar f(x)dx bias(x)2 dx N ormalna 0.215656 0.00545032 0.00436026 0.00109006 Kvartna 0.565583 0.00526216 0.00420973 0.00105243 Epanechnikova 0.213509 0.00523647 0.00418918 0.00104729 h tg N ormalna 0.22 0.00545474 0.00427416 0.00118058 Kvartna 0.6 0.0053012 0.00396825 0.00133295 Epanechnikova 0.23 0.00529913 0.00388881 0.00141032 Tablica 6: Rezultati izračuna parametra zagladivanja h

35 Promotrimo li Tablicu 6 vidimo da je najbolja procjena Epanechnikovom jezgrom i optimalnim h = 0.213509. Tražimo li najbolju procjenu sa parametrom zagladivanja h dobivenim test graf metodom, možemo vidjeti da je to opet procjena Epanechnikovom jezgrom (h = 0.23). Slika 16. Procjena Epanechnikovom jezgrom i prava funkcija gustoće Slika 17. Procjena normalnom i kvartnom jezgrom i prava funkcija gustoće

36 Slike 16 i 17 prikazuju nam procjene i prave gustoće. Vidimo da procjene prilično dobro prate graf prave funkcije gustoće. Na Slici 18 ponovno su prikazane procjene koje smo sami radili i procjena koju je napravila Mathematica. Vidimo da se ovoga puta procjene ne poklapaju dobro kao dosada sa procjenom dobivenom naredbom KernelMixtureDistribution. Slika 18. Procjena dobivena sa KernelMixtureDistribution naredbom i procjene normalnom, kvartnom i Epanechnikovom jezgrom i optimalnim h 4.3. Odabir parametra zagladivanja h Woodroofovim pristupom i metodom unakrsne validacije najmanjih kvadrata U jednom od prethodnih poglavlja rada kod odabira parametra zagladivanja h opisane su osim test graf metode još dvije metode odabira. Jedna od njih je Woodroofov pristup (unutarnja procjena grubosti gustoće), a druga metoda je metoda unakrsne validacije najmanjih kvadrata. Kako se kod obje navedene metode javljaju problemi pri izračunu u Mathematici zbog velike količine simuliranih podataka, ilustracije radi, prikazane su na malom skupu simuliranih podataka. Simulirano je 10 podataka iz Weibullove W (2, 2) distribucije. Za jezgru procjenitelja odabrana je Epanechnikova jezgra. Kao i u prethodnim primjenama procjenitelja jezgrom, provjereno je vrijede li uvjeti (27).

37 Izračunali smo optimalni h kako bi mogli usporediti rezultate dobivene primjenom Woodroofovog pristupa i metode unakrsne validacije najmanjih kvadrata. Prva metoda koju smo odabrali je Woodroofov pristup. Nedostatak ove metode je u tome što se mora odabrati nekakav početni parametar zagladivanja h 0. Odabir ovisi o osobi koja vrši procjenu. Kako bi vidjeli kakav utjecaj ima odabir početnog parametra zagladivanja h 0, u primjeru su odabrana dva različita početna parametra. Nakon odabira početnog h 0 računaju se vrijednosti α(k) = k 2/5 2 { K(t)2 dt} 1/5 i β( f 0 ) zadan sa (75), gdje je f 0 procjena jezgrom sa parametrom zagladivanja h 0. Kada smo izračunali α(k) i β( f 0 ), parametar zagladivanja koji ćemo korisiti za procjenu dobivamo iz izraza (76). Sljedeća metoda je unakrsna validacija najmanjih kvadrata. Prvi korak je izračunati funkciju M 1 (h) definiranu s (71). Nakon toga moramo minimizirati tu funkciju po svim h i tada ćemo dobiti h pomoću kojeg ćemo nastaviti daljnje računanje. h MISE optimalni h 0.619639 0.0541299 W oodroofov pristup 0.739129 0.0582209 h 0 = 0.5 0.604708 0.0541928 h 0 = 0.4 uvnk 0.597423 0.0542692 Tablica 7: Rezultati izračuna parametra zagladivanja h U Tablici 7 prikazani su rezultati dobiveni pri odabiru parametra h. Pogledamo li vrijednosti integrirane srednjekvadratne greške, vidimo da je najbolja procjena dobivena odabirom h optimalno. Usporedimo li parametre h dobivene Woodroofovim pristupom, vidimo da je bolja procjena dobivena kada je za početni h odabrana manja vrijednost. U tom slučaju vrijednost parametra h prilično je bliska vrijednostima parametara h dobivenim optimalno i metodom unakrsne validacije najmanjih kvadrata.

38 Slika 19. Procjena Epanechnikovom jezgrom s parametrima h odabranim optimalno, Woodroofovim pristupom i unakrsnom validacijom najmanjih kvadrata Na Slici 19 vidimo da grafovi svih procjena imaju sličan oblik. Vidimo da su se grafovi procjena jezgrom s parametrom h dobivenim optimalno, unakrsnom validacijom najmanjih kvadrata i Woodroofovim pristupom s početnim h 0 = 0.4 podudaraju na velikom dijelu. To naravno možemo očitati i iz Tablice 7; vidimo da se parametri h za nabrojane tri metode kreću oko 0.6 dok je h odabran Woodroofovim pristupom i početnim h 0 = 0.5 veći. U ovom primjeru ne možemo reći da se radi o dobro procijenjenoj funkciji gustoće jer imamo premali uzorak na kojem provodimo procjenu.

39 Literatura [1] N. Sarapa, Teorija vjerojatnosti, Školska knjiga, Zagreb 1992. [2] B. W. Silverman, Density Estimation for Statistics and Data Analysis, Chapman and Hall, London 1986. [3] B. W. Silverman, Choosing the window width when estimating a density, Biometrika 65 (1978), 1-11 [4] E. Parzen, On estimation of a probability density function and mode, Ann. Math. Statist. 33 (1962), 1065-1076 [5] M. Rosenblatt, Remarks on some nonparametric estimates of a density function, Ann. Math. Statist. 27 (1956), 832-837 [6] L. Wassermann, All of statistics: a concise course in statistical inference, Springer Science+Business Media,Inc. 2004. [7] V. S. M. Campos, C. C. Y. Dorea, Kernel density estimation: the general case, Statistics and Probability Letters, 55 (2001), 173-180 [8] J. L. Hodges, E. L. Lehmann, The efficiency of some nonparametric competitors of the t-test, Ann. Math. Statist. 27 (1956), 324-335 [9] C. J. Stone, An asymptotically optimal window selection rule for kernel density estimates, Ann. Statist. 12 (1984), 1285-1297 [10] H. G. Müller, Smooth optimum kernel estimators of densities, regression curves, Ann. Statist. 12 (1984), 766-774 [11] W. R. Schucany, J. P. Sommers, Improvement of kernel type density estimators, J. Amer. Statist. Assoc. 72 (1977), 420-423 [12] M. G. Kendall, A. Stuart The Advanced Theory of Statistics Volume 2, Griffin, London 1973. [13] M. Woodroofe, On choosing a delta-sequence, Ann. Math. Statist. 41 (1970), 1665-1671 [14] D. W. Scott, R. A. Tapia, J. R. Thompson, Kernel density estimation revisited, Nonlinear Analysis 1 (1977), 339-372 [15] W. Nelson, Applied life data analysis, Wiley, New Jersey 2004. [16] B. Dodson, The Weibull analysis handbook, ASQ Quality Press, Milwaukee 2006.

40 Sažetak Ovaj diplomski rad bavi se temom procjene funkcija gustoće. U radu su opisane neke od metoda procjene funkcije gustoće. Opisane su metoda histograma, prirodni procjenitelj, procjenitelj jezgrom i procjenitelj općenitom težinskom funkcijom. Najviše pozornosti posvećeno je procjenitelju jezgrom. Navedeno je nekoliko metoda odabira parametra zagladivanja za procjenitelja jezgrom. Posljednji dio rada daje primjere primjene procjenitelja jezgrom. Simulirani su podaci iz Weibullove distribucije te je na te podatke primijenjen procjenitelj jezgrom.

41 Abstract This work deals with the topic of density function estimation. This paper describes some of the methods of density function estimation. Described methods are the histogram, the naive estimator, the kernel estimator and general weight function estimators. Most attention is given to the kernel density estimator. It was stated several methods of choosing the smoothing parameter for the kernel density estimator. We simulated data from the Weibull distribution and the kernel density estimator was applied to the data.

42 Životopis Rodena sam 2. rujna 1986. godine u Osijeku. Pohadala sam osnovnu školu u Kneževim Vinogradima. Nakon završene osnovne škole, 2001. godine upisala sam se u Drugu srednju školu Beli Manastir u Belom Manastiru, ekonomski smjer. 2005. godine upisala sam se na Preddiplomski studije matematike na Odjelu za matematiku u Osijeku. Preddiplomski studij sam završila 2009. godine sa završnim radom Prilagodba teorijske razdiobe empirijskim podacima nakon čega sam upisala Diplomski studij financijske i poslovne matematike.