Prednášky z regresných modelov

Similar documents
Jádrové odhady gradientu regresní funkce

Metódy vol nej optimalizácie

Teória grafov. RNDr. Milan Stacho, PhD.

Modely, metódy a algoritmy pre analýzu longitudinálnych dát

Matematická analýza II.

PSEUDOINVERZNÁ MATICA

Fakulta Matematiky, Fyziky a Informatiky Univerzita Komenského, Bratislava THEILOVA REGRESIA

Jádrové odhady regresní funkce pro korelovaná data

Maticové algoritmy I maticová algebra operácie nad maticami súčin matíc

Errors-in-variables models

Kapitola S5. Skrutkovica na rotačnej ploche

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY

Lucia Fuchsová Charakteristiky pravděpodobnostních

ADM a logika. 4. prednáška. Výroková logika II, logický a sémantický dôsledok, teória a model, korektnosť a úplnosť

Appendix. Title. Petr Lachout MFF UK, ÚTIA AV ČR

Samuel Flimmel. Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Katedra pravděpodobnosti a matematické statistiky

Matematika 17. a 18. storočia

Štatisticky tolerančný interval nazýva ISO Statistics. Vocabulary and symbols. Part 1: Probability and general statistical terms ako štatistick

Obsah. 2 Určenie objemu valčeka Teoretický úvod Postup merania a spracovanie výsledkov... 10

Dokonalé a spriatelené čísla

Odhady veľkosti pokrytí náhodne indukovaných podgrafov n-rozmernej hyperkocky

PROGRAM VZDELÁVACEJ ČINNOSTI. Anotácia predmetu

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY. Robustné metódy vo faktorovej analýze

ŠTEFAN GUBO. Riešenie úloh nelineárnej regresie pomocou tabuľkového kalkulátora. Solution of nonlinear regression tasks using spredsheet application

1 Matice a ich vlastnosti

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Michal Kesely. Katedra matematické analýzy. Studijní program: Obecná matematika

Optimal experimental design, an introduction, Jesús López Fidalgo

METRICKÉ ÚLOHY V PRIESTORE

Ing. Tomasz Kanik. doc. RNDr. Štefan Peško, CSc.

Kapitola P2. Rozvinuteľné priamkové plochy

PROBABILITY AND STATISTICS Vol. III - Statistical Experiments and Optimal Design - Andrej Pázman STATISTICAL EXPERIMENTS AND OPTIMAL DESIGN

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY REKURENTNÉ POSTUPNOSTI

Algoritmy metód vnútorného bodu v lineárnom programovaní

Kľúčové slová: SAR, šum spekl noise, evolučná PDR, lineárna difúzia, Perona-Malikova rovnica, štatistickéfiltre, Leeho filter

Radka Sabolová Znaménkový test

A geometric characterization of c-optimal designs for heteroscedastic regression

Prednáška 3. Optimalizačné metódy pre funkcie n-premenných. Študujme reálnu funkciu n-premenných. f: R R

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY. Kritéria nezápornosti Fourierových radov BAKALÁRSKA PRÁCA

Bootstrap metody II Kernelové Odhady Hustot

EXTREME SEVERAL-DAY PRECIPITATION TOTALS AT HURBANOVO DURING THE TWENTIETH CENTURY

MASARYKOVA UNIVERZITA ÚSTAV MATEMATIKY A STATISTIKY

Matematická analýza II.

SLOVENSKÁ TECHNICKÁ UNIVERZITA V BRATISLAVE FAKULTA CHEMICKEJ A POTRAVINÁRSKEJ TECHNOLÓGIE ÚSTAV INFORMATIZÁCIE, AUTOMATIZÁCIE A MATEMATIKY

COMENIUS UNIVERSITY IN BRATISLAVA FACULTY OF MATHEMATICS, PHYSICS AND INFORMATICS

PROGRAMY NA SPRACOVANIE A VIZUALIZÁCIU EXPERIMENTÁLNYCH DÁT

2-UMA-115 Teória množín. Martin Sleziak

The influence of input data design on terrain morphometric parameters quality and accuracy

On construction of constrained optimum designs

A L A BA M A L A W R E V IE W

DEA modely a meranie eko-efektívnosti

Oddělení technické informatiky Technická univerzita v Liberci

Súťaž PALMA junior a programovanie v jazyku Python

Univerzita Karlova v Praze Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCA. Bc. Roman Cinkais. Aplikace samoopravných kódů v steganografii

Aplikácie teórie množín Martin Sleziak 24. februára 2015

FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY UNIVERZITY KOMENSKÉHO V BRATISLAVE

Optimal designs for estimating the slope in nonlinear regression

Heteroscedastic T-Optimum Designs for Multiresponse Dynamic Models

Acta Universitatis Palackianae Olomucensis. Facultas Rerum Naturalium. Mathematica

1 Úvod Úvod Sylaby a literatúra Označenia a pomocné tvrdenia... 4

The Golden Ratio and Signal Quantization

P a g e 5 1 of R e p o r t P B 4 / 0 9

České vysoké učení technické v Praze

FAKULTA HUMANITNÝCH VIED, ŽILINSKÁ UNIVERZITA V ŽILINE INFORMAČNÝ LIST PREDMETU. Názov: Matematická analýza 1 (povinný) Zabezpečuje:

Fakulta matematiky, fyziky a informatiky Univerzity Komenského v Bratislave. Písomná práca k dizertačnej skúške

NEISTOTY. Základné pojmy a definície z oblasti neistôt meraní

ON THE REGULARIZATION OF SINGULAR C-OPTIMAL

Solution Methods for Beam and Frames on Elastic Foundation Using the Finite Element Method

Efficient algorithms for calculating optimal designs in pharmacokinetics and dose finding studies

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Stavba Lobačevského planimetrie

MATEMATIKA I a jej využitie v ekonómii

Vyučovanie analytickej geometrie s podporou informačných a komunikačných technológií

One-step ahead adaptive D-optimal design on a finite design. space is asymptotically optimal

História nekonečne malej veličiny PROJEKTOVÁ PRÁCA. Martin Čulen. Alex Fleško. Konzultant: Vladimír Repáš

Predikcia úmrtnosti na Slovensku

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY MODELOVANIE NEZAMESTNANOSTI PRE REGIÓNY Bc.

Statistika pro informatiku

Analýza multispektrálnych dát z konfokálnej mikroskopie. DIPLOMOVÁ PRÁCA

Optimum Designs for the Equality of Parameters in Enzyme Inhibition Kinetic Models

MEDZINÁRODNÝ VEDECKÝ ČASOPIS MLADÁ VEDA / YOUNG SCIENCE

GRAFICKÉ ZOBRAZENIE MATEMATICKÝCH FUNKCIÍ DRAWING OF MATHEMATICS FUNCTIONS GRAPHS

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY

Kybernetika. Peter Hudzovič Súčasná kontrola stability a kvality impulznej regulácie. Terms of use:

Univerzita Karlova v Praze. Matematicko-fyzikální fakulta DIPLOMOVÁ PRÁCE. Matúš Kepič

Katedra matematiky a teoretickej informatiky Fakulta elektrotechniky a informatiky

ODHAD PARAMETROV VŠEOBECNÉHO PARETOVHO ROZDELENIA SOFTVÉROM EVA V PROSTREDÍ JAZYKA R.

Penalized D-optimal design for dose finding

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY DETEKOVANIE KOMUNÍT V SOCIÁLNYCH SIEŤACH Patricia SVITKOVÁ

ANALYSIS OF EXTREME HYDROLOGICAL EVENTS ON THE DANUBE USING THE PEAK OVER THRESHOLD METHOD

UNIVERZITA KOMENSKÉHO V BRATISLAVE FAKULTA MATEMATIKY, FYZIKY A INFORMATIKY MODELOVANIE VEKU ÁUT V PREVÁDZKE

Silne korelované elektrónové a spinové systémy

Segmentace textury. Jan Kybic

ENTROPIA. Claude Elwood Shannon ( ), USA A Mathematical Theory of Communication, 1948 LOGARITMUS

RIEŠENIE PROBLÉMOV METÓDOU MONTE CARLO V TABUĽKOVOM KALKULÁTORE MS EXCEL ÚVOD

Moderné vzdelávanie pre vedomostnú spoločnosť/projekt je spolufinancovaný zo zdrojov EÚ. Základné pojmy pravdepodobnosti

RESEARCH REPORT. ÚTIA AVČR, v.v.i., P.O.Box 18, Prague, Czech Republic Fax: (+420) ,

Katedra Informatiky Fakulta Matematiky, Fyziky a Informatiky Univerzita Komenského, Bratislava. Multiparty Communication Complexity (Master thesis)

VIACKRITERIÁLNE (MULTIKRITERIÁLNE) ROZHODOVANIE (ROZHODOVACIA ANALÝZA)

Transcription:

Prednášky z regresných modelov Odhadovanie parametrov strednej hodnoty a štatistická optimalizácia experimentu Prednášky Andreja Pázmana spracované v spolupráci s Vladimírom Lackom Univerzita Komenského v Bratislave 2012

c prof. RNDr. Andrej Pázman, DrSc., RNDr. Vladimír Lacko Recenzenti: Júlia Volaufová, Professor Louisiana State University, Health Sciences Center New Orleans, LA, USA doc. Mgr. Radoslav Harman, PhD. Fakulta matematiky, fyziky a informatiky UK Bratislava, Slovenská Republika Zodpovedná redaktorka: Mgr. Erika Myslivcová Foto na obálke: Mgr. Ladislav Petruš Napísané v L A TEXu Všetky práva vyhradené. Toto dielo ani žiadna jeho čast nesmie byt prekladaná a akýmkol vek spôsobom reprodukovaná bez predchádzajúceho súhlasu autorov. Vydala Univerzita Komenského v Bratislave vo Vydavatel stve UK ako vysokoškolskú učebnicu. Vytlačilo Polygrafické stredisko UK v náklade 100 kusov. Vydanie prvé, počet strán 140. AH XXXX. VH XXXX. ISBN 978-80-223-3070-1

Obsah Predslov Prehl ad symbolov iii vii 1 Maticová príprava 1 1.1 Stĺpcový priestor a jadro matice.................. 1 1.2 g-inverzia.............................. 4 1.3 Projekčné matice.......................... 5 1.4 Cvičenia............................... 6 2 Lineárny regresný model 9 2.1 Motivačné príklady......................... 9 2.2 Geometria modelu a metóda najmenších štvorcov........ 11 2.3 Gaussova-Markovova veta..................... 15 2.4 Vlastnosti lineárneho modelu v prípade normálne rozdelených chýb................................. 17 2.4.1 Základná veta lineárneho regresného modelu...... 18 2.4.2 Oblasti spol ahlivosti.................... 20 2.4.3 Pás spol ahlivosti...................... 23 2.4.4 Testovanie submodelov.................. 25 2.5 Poznámky o robustnosti odhadov a diagnostike modelu..... 30 2.6 Cvičenia............................... 32 3 Nelineárny regresný model 35 3.1 Príklady nelineárnych regresných modelov a úvod do kapitoly. 35 3.2 Symbolika a výpočty derivácií................... 37 3.3 Nelineárny regresný model a jeho geometria........... 41 3.4 Lokálna linearizácia nelineárneho regresného modelu...... 43 3.5 Existencia a jednoznačnost odhadu metódou najmenších štvorcov v nelineárnom modeli..................... 46 3.6 Algoritmy hl adania lokálnych miním v metóde najmenších štvorcov.................................. 48 3.6.1 Gaussova-Newtonova a s ňou súvisiace metódy..... 49

ii OBSAH 3.7 Konzistencia a asymptotická normalita odhadov metódou najmenších štvorcov v nelineárnej regresii.............. 54 3.8 Miery nelinearity (krivosti) v nelineárnej regresii........ 61 3.8.1 Iné aspekty krivosti..................... 68 3.9 Oblasti spol ahlivosti........................ 70 3.9.1 Asymptotický elipsoid spol ahlivosti............ 71 3.9.2 Oblast spol ahlivosti v prípade rovinnej plochy stredných hodnôt a normálnych chýb................ 71 3.9.3 Konštrukcia oblasti spol ahlivosti lokálnou linearizáciou v každom bode θ...................... 72 3.9.4 Konštrukcia oblasti spol ahlivosti založená na vierohodnosti............................. 74 3.10 Hustota pravdepodobnosti odhadu ˆθ v prípade normálne rozdelených chýb meraní......................... 76 3.11 Cvičenia............................... 78 4 Navrhovanie optimálnych experimentov v lineárnom regresnom modeli 83 4.1 Úvod a základná schéma...................... 83 4.2 Úvahy o konvexných množinách................. 88 4.3 Elipsoid koncentrácie a usporiadanie návrhov.......... 90 4.4 Kritériá optimality experimentu.................. 96 4.5 Elfvingova množina......................... 97 4.6 Vlastnosti kritérií optimality.................... 101 4.6.1 D-optimalita........................ 101 4.6.2 c-optimalita......................... 103 4.6.3 A-optimalita......................... 106 4.6.4 E-optimalita......................... 107 4.6.5 G-optimalita........................ 108 4.6.6 Spojitost kritérií v nekonečne............... 108 4.7 O konvexných funkciách...................... 109 4.8 Nutné a postačujúce podmienky optimality návrhu....... 112 4.9 Algoritmy výpočtu optimálneho návrhu.............. 117 4.10 Cvičenia............................... 118 5 Navrhovanie optimálnych experimentov v nelineárnom regresnom modeli 121 5.1 Úvod................................. 121 5.2 Lokálne kritériá optimality..................... 122 5.3 Priemerovacie (AVE) kritériá optimality............. 123 5.4 Minimaxné kritériá optimality................... 125 5.5 Kritériá určené apriór. distribučnými funkciami lokálnych kritérií 126 Literatúra 129

Predslov Regresné modely patria medzi najpoužívanejšie modely v štatistickej praxi, čo bol dostatočný dôvod na zaradenie takejto prednášky do magisterského štúdia pravdepodobnosti a štatistiky na Fakulte matematiky, fyziky a informatiky UK. Prednáška z regresných modelov, ktorú od začiatku 90. rokov viedol prvý z autorov a ktorá tvorí základ tohto textu, sa postupne vyvíjala, a teda zvládnutel nost tejto učebnice je dobre preverená. Učebný text vznikol pôvodne z iniciatívy druhého z autorov, ktorý prednášku absolvoval ako študent magisterského štúdia v akademickom roku 2009/2010 a elektronicky ju zaznamenal. Text bol postupne modifikovaný, pribudli cvičenia, na ktoré v prednášanom kurze nebol priestor, ako aj ilustrácie z dielne druhého z autorov. K zvýšeniu kvality publikácie prispeli aj podrobné posudky oboch recenzentov, profesorky Júlie Volaufovej a docenta Radoslava Harmana, ktorých rozsiahlu prácu si vysoko ceníme a touto cestou im d akujeme. Napriek miernym zmenám sme sa však snažili, aby si text zachoval ráz prednášky. Pozitívne ohlasy zo strany pedagógov, akým je napríklad profesor Lubomír Kubáček z Univerzity Palackého v Olomouci, ale hlavne zo strany študentov nás utvrdzujú v tom, že tento text má šancu byt prínosom vo vysokoškolskom vzdelávaní. Predpokladom porozumenia vykladanej látky sú vedomosti z oblasti pravdepodobnosti a štatistiky, lineárnej algebry a geometrie a matematickej analýzy na úrovni bakalárskeho štúdia matematických študijných programov. Prvé dve kapitoly sú čiastočne podriadené ostatným trom kapitolám o nelineárnej regresii a optimálnom navrhovaní experimentov, ktoré tvoria jadro textu a ktoré sa opierajú aj o výskumné skúsenosti prvého z autorov v tejto oblasti. Poznatky sa snažíme predostriet súčasne z geometrického, algebraického a štatistického hl adiska. Takýto prístup umožňuje čitatel ovi l ahko pochopit problém cez jednoduché geometrické predstavy, čo často vedie k priamočiarym výpočtovým metódam a k interpretácii výsledkov. Kapitola 1 vyžaduje skúsenost s maticovým počtom a text pozostáva z nie celkom bežne používaných tvrdení lineárnej algebry, ktoré v d alších kapitolách rutinne využívame. Mohlo by sa zdat, že by bolo vhodnejšie zaradit tieto tvrdenia o maticiach na miesto ich prvého využitia, skúsenost však ukazuje, že je pedagogicky výhodné začat cyklus prednášok pomerne l ahko pochopitel nými a študentom čiastočne známymi tvrdeniami z lineárnej algebry. Nie-

iv PREDSLOV ktoré tvrdenia, najmä o derivovaní maticových funkcií, sme však zámerne ponechali až na miesta ich prvého využitia. V kapitole 2 o lineárnom regresnom modeli sa sústredíme len na modely s pevnými (t. j. nenáhodnými) parametrami strednej hodnoty. Posolstvom kapitoly sú dva hlavné výsledky: Gaussova-Markovova veta, ktorá je formulovaná aj pre singulárne modely, a štatistické vlastnosti odhadu metódou najmenších štvorcov v modeli s normálne rozdelenými chybami (tzv. Základná veta lineárneho modelu ) s využitím pri konštrukcii oblastí spol ahlivosti a pri testovaní modelov. Gaussovu-Markovovu vetu zdôrazňujeme hlavne pre neskoršiu formuláciu kritérií optimality v 4. kapitole. S dôsledkami Základnej vety lineárneho modelu sa čitatel mohol stretnút aj na bakalárskych kurzoch o teórii náhodného výberu či analýze variancií, kde sa však ocitol v záplave tradičných sumačných formúl. Jedným z ciel ov kapitoly 2 je preto aj určitá dodatočná strešná konštrukcia tejto teórie, založená na geometrii lineárneho regresného modelu, ktorá je de facto vel mi jednoduchá. Aj ked text nevyžaduje skúsenosti z iných, pokročilých prednášok zo štatistiky, predbežné znalosti z euklidovskej geometrie a maticového počtu sú podstatné. Metódy diagnostiky modelov a alternatívne (napríklad robustné) odhady sa tu spomínajú len okrajovo. O geometriu sa vo vel kej miere opierame v 3. kapitole o nelineárnom regresnom modeli. Výklad by bolo, samozrejme, možné podat aj čisto algebraicky, no bez použitia pojmov ako plocha stredných hodnôt, dotyková rovina a projektor na túto rovinu, krivka a jej dĺžka a podobne by bol takýto výklad vel mi t ažkopádny. Fráza vediet znamená vidiet sa tu uplatňuje v plnom rozsahu, navyše geometrické predstavy sú l ahšie a dlhodobejšie pamätatel né než algebraické formulky. Náročnejšia geometria, ako Riemannovská geometria plôch a kriviek v euklidovských priestoroch, sa tu využíva pri problémoch jednoznačnosti odhadov, pri odvodení mier nelinearity modelu a hustoty pravdepodobnosti odhadov metódou najmenších štvorcov v modeloch s normálnymi chybami. Nepredpokladáme však, že čitatel má väčšie skúsenosti s diferenciálnou geometriou, práve naopak, teóriu budujeme na základe elementárnych, takmer stredoškolských geometrických predstáv. Pri analytickej formulácii sa však nemôžeme vyhnút značnému využívaniu derivácií, nikde však nepotrebujeme riešit diferenciálne rovnice. Napriek tomu, že mnohé pojmy sú vysvetlené už v úvodných častiach textu, vybranú symboliku využívanú v častiach o nelineárnom regresnom modeli vysvetl ujeme z pedagogických dôvodov až na začiatku 3. kapitoly. Nebýva zvykom zarad ovat do kurzov regresnej analýzy aj state o navrhovaní experimentov, ktoré čitatel nájde v 4. a 5. kapitole. Táto problematika je však dnes už taká rozpracovaná, že sa dá vyložit v klasickej učebnicovej štruktúre. Dostupné monografie [F72; S80; P86; PU93; AD92], či slovenský variant [P80], ktoré vznikli z výskumnej činnosti, nie sú vhodnými učebnými textami. Ambíciou tejto publikácie je túto medzeru vyplnit. Obsah 4. kapitoly

PREDSLOV v sa výrazne opiera o využívanie elementov konvexnej analýzy, avšak skúsenosti ukazujú, že študenti často nemajú v tomto smere dostatočnú prípravu. Text preto obsahuje viacero tvrdení podobného charakteru ako v konvexnej analýze, ale špecializované na modely optimalizácie experimentov. Pri výklade sa opät snažíme využívat geometrickú interpretáciu, najvýraznejšie sa to prejavuje v časti o elipsoide koncentrácie a následnom odvodení najznámejších kritérií optimality, či pri využití povestnej Elfvingovej množiny, ktorú možno nazvat malým geometrickým zázrakom teórie optimálneho navrhovania experimentov. Ťažisko predložených poznatkov však spočíva v konvexnej štruktúre kritérií optimality a v elegantných tvrdeniach o nutných a postačujúcich podmienkach optimality, resp. približnej optimality návrhu experimentu, z ktorých vyplývajú aj niektoré optimalizačné algoritmy. V Bratislave 4. októbra 2012 Autori

Prehl ad symbolov definičná rovnost N množina prirodzených čísel R pole reálnych čísel R n n-rozmerný lineárny priestor nad R R n m n m-rozmerný priestor matíc nad R (a, b) otvorený interval [a, b] uzavretý interval (a, b], [a, b) sprava, resp. zl ava uzavretý interval x, y,... vektory x i i-ta zložka vektora x 1 vektor, ktorého všetky zložky sú jednotky 0 vektor, ktorého všetky zložky sú nuly.,. skalárny súčin A,B,... matice A ij, {A} ij ij-ty prvok matice A A i i-ty riadok matice A A j j-ty stĺpec matice A tr(a) stopa matice A r(a) hodnost matice A det(a) determinant matice A A T transpozícia matice A A 1 inverzia matice A A g-inverzie (zovšeobecnená inverzia) matice A A + Mooreova-Penroseova g-inverzia matice A A B Loewnerovo usporiadanie matíc, u u T Au u T Bu diag(a 1,...,a n ) diagonálna matica s prvkami a 1,...,a n na diagonále I jednotková matica e (i) i-ty stĺpec matice I P projekčná matica, projektor M(A) stĺpcový priestor generovaný maticou A

viii PREHL AD SYMBOLOV K (A) jadro matice A N najčastejšie označuje počet pozorovaní v experimente m počet neznámych parametrov strednej hodnoty θ = (θ 1,...,θ m ) T neznáme parametre v regresnom modeli ˆθ = (ˆθ 1,..., ˆθ m ) T odhady neznámych parametrov ξ, η návrhy experimentu X množina možných pokusov/bodov merania v experimente Ξ množina všetkých návrhov experimentu N(µ,Σ) normálne rozdelenie so strednou hodnotou µ a kovariančnou maticou Σ χ 2 n chí-kvadrát rozdelenie s n stupňami vol nosti F n,m Fisherovo rozdelenie s n a m stupňami vol nosti F n,m (p) kvantilová funkcia Fisherovho rozdelenia s n a m stupňami vol nosti Pr symbol označujúci pravdepodobnost E[.] stredná hodnota Var[.] variancia, resp. kovariančná matica Cov[.,.] kovariancia M,M(ξ) informačná matica, resp. informačná matica zodpovedajúca návrhu ξ M množina všetkých informačných matíc v experimente Φ(M) funkcia určujúca kritérium optimality Φ(M) gradient funkcie Φ v bode M { Φ(M)} ij ij-ty prvok gradientu funkcie Φ v bode M Φ(M, M) smerová derivácia funkcie Φ v bode M a v smere M prázdna množina co(.) konvexný obal množiny int(θ) vnútro množiny Θ Θ uzáver množiny Θ f g( ) f(g( )), zložená funkcia MNŠ metóda najmenších štvorcov

KAPITOLA 1 Maticová príprava Skôr ako sa začneme zaoberat teóriou regresných modelov, musíme si zopakovat a doplnit vedomosti z lineárnej algebry a geometrie, ktoré sú nevyhnutné pre jej zvládnutie. Predpokladáme, že čitatel má absolvovaný kurz lineárnej algebry v rozsahu bakalárskeho štúdia matematiky [K03; Z11]. To znamená, že dobre pozná pojem matice, súčtu a súčinu matíc, transpozície, inverzie a stopy matice, determinantu, vlastných čísel a vlastných vektorov a pod. Niektoré tvrdenia, o ktorých predpokladáme, že ich čitatel už ovláda, sú zložitejšie než vety, ktorých dôkazy tu predkladáme. Týka sa to hlavne využitia vlastných vektorov a vlastných čísel. Avšak nami zvolený výber podrobne prebraných tvrdení nie je náhodný, ale je motivovaný geometrickým prístupom k maticiam, ako aj d alším rutinným používaním výsledkov týchto tvrdení. Hlbší výklad teórie matíc v rozsahu potrebnom pre štatistiku môže čitatel nájst v monografii [H00]. 1.1 Stĺpcový priestor a jadro matice Nech A je l ubovol ná matica typu m n. Potom symbolom M(A) označujeme stĺpcový priestor matice A, t. j. M(A) {Au : u R n }. Symbolom K (A) označujeme jadro matice (kernel), t. j. Lema 1.1. Platí K (A) {v R n : Av = 0}. K (A T ) = [M(A)] {v R n : u M(A) u T v = 0}.

2 1. MATICOVÁ PRÍPRAVA Dôkaz. x K (A T ) A T x = 0 v v T A T x = 0 v (Av) T x = 0 x [M(A)]. Je zrejmé, že pre každú maticu A platí, že A = 0 u,v u T Av = 0. O niečo silnejšie tvrdenie môžeme vyslovit pre symetrickú maticu A, t. j. takú, že A = A T. Lema 1.2. Nech A je symetrická matica. Potom A = 0 u u T Au = 0. Dôkaz. Platnost implikácie je zrejmá, preto dokážeme iba opačný smer. Nech pre každé u a v platí, že (u + v) T A(u + v) = 0, (u v) T A(u v) = 0. Odčítaním predchádzajúcich rovníc dostaneme, že u T Av = 0. Ked že vektory u a v boli l ubovol né, potom nutne A = 0. Matica A R n n sa nazýva kladne semidefinitná, ak pre každé u R n platí u T Au 0. Ak navyše platí u T Au = 0 u = 0, potom je matica A kladne definitná. Lema 1.3. Nech C je symetrická kladne definitná matica, a nech rozmer matice A je taký, že súčin A T CA má zmysel. Potom Dôkaz. Nech x M(A T CA). Potom M(A T ) = M(A T CA). x M(A T CA) v x = A T CAv }{{} = A T u x M(A T ). u Teda M(A T CA) M(A T ). Teraz, nech x K (A T CA). Potom x K (A T CA) A T CAx = 0 0 = x T A T CAx = (Ax) T C(Ax). Ked že C je kladne definitná, tak Ax = 0, t. j. x K (A). Teda z lemy 1.1 dostávame [M(A T CA)] = K (A T CA) K (A) = [M(A T )]. Ukázali sme, že [M(A T CA)] [M(A T )]. Odstránením sa inklúzia obráti, čo dokazuje lemu.

KAPITOLA 2 Lineárny regresný model Alternatívny názov tejto kapitoly by mohol byt Základné aspekty lineárneho modelu trochu inak. Predpokladáme, že čitatel už má určité skúsenosti s lineárnym modelom z iných prednášok alebo literatúry, avšak v princípe kapitolu možno naštudovat bez predbežných znalostí o lineárnom modeli. Pokial by sa chcel čitatel podrobnejšie oboznámit s klasickým prístupom k lineárnemu modelu alebo s jeho aplikáciami (napr. analýza rozptylu alebo faktorová analýza), odporúčame do češtiny preloženú knihu C. R. Raa [R78], českú knihu K. Zváru [Z89], d alej učebnice J. Anděla [A85] a F. Lamoša a R. Potockého [LP98], a z anglickej literatúry odporúčame monografiu J. H. Stapletona [S95]. Rozbor lineárnych a kvadratických štatistických metód je v monografii L. Kubáčka, L. Kubáčkovej a J. Volaufovej [K95]. Problematika lineárnych regresných modelov je široká, pretože ide o najviac používané modely v aplikáciách. Náš výklad je však cielene zúžený a opiera sa aj o geometrickú intuíciu. Výklad kapitoly obsahuje dva základné výsledky: Gaussovu-Markovovu vetu a to, čo tu nazývame Základná veta lineárneho regresného modelu. Tieto vety sú východiskom pre kapitoly o nelineárnom regresnom modeli a navrhovaní experimentov. Mimo tohto trendu je čast 2.5, ktorá naznačuje možnosti diagnostikovania odchýlok od modelu a alternatívneho odhadovania parametrov. 2.1 Motivačné príklady Príklad 2.1. Pre dráhu vol ne padajúceho telesa platí s(t) = s 0 + v 0 t + gt 2 /2. Označme y i nameraný údaj v čase t i, t. j. y i = s(t i ) + ε i, pričom pre chyby merania platí E[ε i ] = 0, Var[ε i ] = σ 2 a Cov[ε i, ε j ] = 0 pre i j. Potom dostávame model y i = s 0 + v 0 t i + g t2 i 2 + ε i,

10 2. LINEÁRNY REGRESNÝ MODEL kde hodnoty parametrov s 0, v 0 a g sú neznáme. Vidíme, že parametre v modeli vystupujú lineárne. Neznámou je aj hodnota parametra σ 2, ktorý má však v modeli úplne inú úlohu (charakterizuje presnost našich meraní). Príklad 2.2. Majme merania (x i, y i ) (i = 1,...,N), ktorých závislost chceme modelovat polynómom k-teho stupňa, t. j. y i = θ 0 + θ 1 x i + + θ k x k i + ε i, i = 1,...,N. Uvedený model môžeme zapísat vektorovo y 1 1 x 1 x k 1 θ 0 ε 1 y 2 1 x 2 x k 2 θ 1 ε 2. =............... +.,.... y N }{{} y θ k 1 x N }{{ x k N }}{{} F θ ε N }{{} ε teda y = Fθ + ε, kde E[ε] = 0 a Var[ε] = σ 2 I, pričom σ 2 je tiež neznáme. Príklad 2.3. Prospech y i študenta i závisí od faktorov x, z, w, nejakým neznámym funkčným vzt ahom h(x i, z i, w i ), ktorý chceme zistit aspoň približne z dát x i, z i, w i, y i, i = 1,...,N, kde N je počet všetkých študentov. Presnejšie, prospech i-teho študenta sa potom rovná y i = h(x i, z i, w i ) + ε i, kde ε i je realizácia nejakej náhodnej veličiny vyjadrujúcej vplyv iných (podružných) faktorov. Označme x, y a z priemerné hodnoty čísel x i, y i a z i, i = 1,...,N. Z Taylorovho rozvoja v bode x, z, w dostávame približne E[y] = h(x, z, w) h(x,z, w) }{{} + θ 1 + h(x,z, w) w } {{ } θ 4 h(x,z, w) h(x,z, w) (x x) + (z z) } x {{}} z {{} θ 2 θ 3 (w w) + 2 h(x,z, w) (x x)(z z), } x z {{} θ 5 prípadne uvedieme d alšie členy druhého alebo vyšších rádov. Podotýkame, že príliš malý počet členov vedie k nedostatočnej aproximácii funkcie h(x, z, w), avšak príliš vel ký počet členov vedie k narastaniu disperzie odhadu tejto funkcie. Princíp testovania správneho počtu členov uvádzame v časti 2.4.4. Náš model môžeme teda prepísat v tvare y i = θ 1 + θ 2 (x i x) + θ 3 (z i z) + θ 4 (w i w) + θ 5 (x i x)(z i z) + ε i, opät teda dostávame lineárny model s neznámymi parametrami θ 1,...,θ 5. Pritom ε i môžeme považovat za nezávislé s tou istou (neznámou) varianciou Var[ε i ] = σ 2.

2.2 GEOMETRIA MODELU A METÓDA NAJMENŠÍCH ŠTVORCOV 11 R N y Fˆθ = Py M(F) = {Fu : u R m } Obrázok 2.1: Ku geometrickej interpretácii modelu a metódy najmenších štvorcov. 2.2 Geometria modelu a metóda najmenších štvorcov V d alšom texte uvažujeme lineárny regresný model v tvare y = Fθ + ε, E[ε] = 0, Var[ε] = σ 2 W, (2.1) kde y R N je vektor nameraných dát, θ R m je vektor neznámych parametrov (ktorý budeme odhadovat ), F je známa matica plánu, W je známa kladne definitná matica, a σ 2 je neznáma konštanta. Vektorový parameter θ = (θ 1,......,θ m ) T je parameter strednej hodnoty a predpokladom θ R m vyjadrujeme, že apriori o ňom nič nevieme. Naproti tomu σ 2 je tiež neznámy parameter, o ktorom predpokladáme iba to, že σ 2 > 0, má však úplne inú úlohu. Je to parameter presnosti našich pozorovaní. V nami uvažovanom modeli je dôležité, že σ 2 nezávisí od parametra θ. Odhad ˆθ hl adáme najčastejšie (váženou) metódou najmenších štvorcov ˆθ = arg min θ R m(y Fθ)T C(y Fθ) = arg min θ R m y Fθ 2 C 1, (2.2) kde C je nejaká kladne definitná matica. Ak C = I, potom minimalizujeme výraz y Fθ 2 I = y Fθ 2 = N i=1 (y i F i θ) 2, kde F i značí i-ty riadok matice F. Geometrická interpretácia MNŠ je nasledujúca: Zrejme E θ [y] = Fθ. To znamená, že {E θ [y] : θ R m } = {Fθ : θ R m } = M(F) tvorí lineárny priestor, ktorý nazývame rovinou stredných hodnôt. Potom odhad MNŠ je ortogonálna projekcia vektora y na M(F) vzhl adom na skalárny súčin a, b C 1 = a T Cb,

12 2. LINEÁRNY REGRESNÝ MODEL čiže spomedzi všetkých bodov Fθ hl adáme taký, ktorý je najbližšie k y. To je práve päta kolmice, teda Fˆθ = Py, kde P je ortogonálny projektor. Z vety 1.12 vyplýva, že Fˆθ = Py = F(F T CF) F T Cy. Tejto rovnici vyhovuje každé riešenie tvaru ˆθ = (F T CF) F T Cy, (2.3) kde použitá g-inverzia je l ubovol ná. V prípade, že F má plnú hodnost (a teda namiesto g-inverzie je inverzia), dostávame jednoznačný odhad ˆθ. V opačnom prípade je jednoznačne daná iba päta kolmice Fˆθ. Všimnime si, že uvedená geometrická interpretácia modelu (2.1) ukazuje, že lineárny model možno zovšeobecnit. Možno ho totiž zapísat v tvare y = µ + ε, E[ε] = 0, Var[ε] = σ 2 W, kde predpoklady na σ 2 a W ostávajú nezmenené a predpokladáme, že µ V, kde V je daná lineárna varieta (lineárnou varietou rozumieme podmnožinu R N s vlastnost ou µ 1, µ 2 V µ 1 + µ 2 V). Špeciálne, v modeli (2.1) je V zhodné s rovinou stredných hodnôt, teda V = M(F). Príkladom takého všeobecnejšieho lineárneho modelu je y = Fθ + b + ε, kde matica F a vektor b sú dané. Potom V = {Fθ + b : θ R m }. Jednoduchou transformáciou y = y b dostávame model y = Fθ +ε známy z (2.1). Iný príklad je model s podmienkami y = Fθ + ε, Bθ = 0, kde B je daná matica. Ide teda o model (2.1), kde parameter θ je viazaný lineárnymi podmienkami. V tomto prípade V = {Fθ : θ R m, Bθ = 0}. V princípe sa možno aj v tomto prípade vrátit k modelu (2.1) a to tak, že vo V zvolíme lineárnu bázu v 1,...,v r, kde r je dimenzia variety V. Teda, každé µ V sa dá zapísat v tvare µ = r i=1 α iv i, kde α i R. Pomocou takto vytvorených nových parametrov α 1,...,α r môžeme model s podmienkami zapísat v tvare y = Vα + ε, kde V = (v 1,...,v r ). V aplikáciách sa však takáto reparametrizácia θ α nepoužíva, zaužívanejšie techniky možno nájst v literatúre, napr. [R78] alebo [S94]. Z uvedených úvah vidno, že pri výklade podstatných vlastností odhadov MNŠ stačí, ked sa obmedzíme na výklad modelu (2.1). Vrát me sa teraz k metóde najmenších štvorcov v nami uvažovanom modeli (2.1). Uvedené odvodenie odhadu (2.3) je len intuitívne, dokážeme to

VLASTNOSTI LIN. MODELU V PRÍPADE NORMÁLNE ROZDELENÝCH CHÝB 25 parameter stupeň pri komponente 3 4 konštanta 0.4514 0.4521 sin(t) 0.6077 0.6065 cos(t) 1.2837 1.2916 sin(2t) 1.4938 1.4803 cos(2t) 0.5741 0.5728 sin(3t) - 0.0155 cos(3t) - 0.0584 s 2 0.4753 0.4836 Tabul ka 2.1: Odhady parametrov v trigonometrickej regresii v príklade 2.14. Príklad 2.14. Obrázok 2.2 znázorňuje nasledujúcu situáciu: Každých 0.1 sekundy zaznamenávame periodický signál, pričom vykonáme dovedna 200 meraní. Prirodzený spôsob ako takýto signál modelovat je použit trigonometrickú regresiu konečného stupňa (ako aproximáciu periodickej funkcie Fourierovým radom). V tabul ke 2.1 sú porovnané odhady v prípade trigonometrickej regresie stupňa 3 a 4. Na obrázku 2.2 je plnou čiarou vyznačený odhad krivky pre stupeň 3 a súčasne aj pre stupeň 4, ktoré sa prakticky zhodujú. Prerušovanou čiarou je znázornený skutočný priebeh krivky. Tmavosivý pás vyznačuje pás spol ahlivosti pre nami odhadnutú krivku stupňa 3 a svetlosivá oblast spolu s tmavosivou zodpovedá pásu spol ahlivosti odhadnutej krivky v prípade stupňa 4. Všimnime si, že v prípade regresie stupňa 4 sa nám odhady príliš nezmenili, no výrazne sa rozšíril pás spol ahlivosti, a teda klesla presnost odhadu. 2.4.4 Testovanie submodelov Príklad 2.15. Uvažujme model y = Gβ + ε v tvare y ij = β 1 + β 2 x i + β 3 x 2 i + ε ij, i = 1,...,N, (2.10) kde i = 1,...,I, j = 1,...,J a x i sú body z intervalu [a, b]. Index j tu označuje opakovanie merania v tom istom bode x i. Teda celkový počet meraní je N = = I J. Chyby meraní ε ij majú nulovú strednú hodnotu, sú nekorelované a majú konštantnú varianciu σ 2. Otázka je, či tento model dobre vystihuje dané dáta. Zo Základnej vety lineárneho modelu vyplýva, že y Gˆβ 2 /σ 2 χ 2 N 3, čo by nám malo umožnit testovat model (2.10). Problém však je, že nepoznáme σ 2, a preto jeho odhad v rámci modelu s 2 = y Gˆβ 2 /(N 3) nemôžeme použit. Musíme preto σ 2 odhadovat pomocou iného modelu. V našom prípade takýmto pomocným modelom je model y ij = µ i + ε ij, i = 1,...,I, j = 1,...,J,

26 2. LINEÁRNY REGRESNÝ MODEL 5 4 3 y(x), η(x,θ) 2 1 0 1 2 3 0 2 4 6 8 10 x Obrázok 2.2: K príkladu 2.14. Plná čiara je odhadnutá krivka pre parametre trigonometrickej regresie stupňa 3 a prerušovaná čiara zodpovedá skutočnej krivke. Tmavosivý pás je príslušný pás spol ahlivosti pre odhadnutú krivku a svetlosivé rozšírenie nám dáva pás spol ahlivosti v prípade regresie stupňa 4. Body v grafe zodpovedajú nameraným hodnotám. kde µ i = E[y ij ], j = 1,...,J. V tomto modeli µ = (µ 1,...,µ I ) T je nový vektor neznámych parametrov. Zdôrazňujeme, že hodnoty y ij a chyby ε ij ostávajú nezmenené, t. j. také ako v pôvodnom modeli. Kým v pôvodnom modeli sú stredné hodnoty µ i previazané cez β 1 +β 2 x i +β 3 x 2 i, v novom modeli previazané nie sú, t. j. nový model ponúka viac hypotetických možností pre strednú hodnotu pozorovaných veličín. Súčasne nový model je určite správny, pretože oprávnene predpokladáme, že opakované merania majú tú istú strednú hodnotu µ i. Vrát me sa k všeobecnej situácii. Označme testovaný model ako a pomocný model ako y = Gβ + ε, β R k, y = Fθ + ε, θ R m. Zdôrazňujeme, že v oboch modeloch ide o tie isté vektory nameraných údajov y a tie isté vektory chýb ε, pričom ε N(0, σ 2 W). Predpokladáme, že vzt ah medzi modelmi môžeme geometricky vyjadrit pomocou priestorov stredných hodnôt takto: {Gβ : β R k } {Fθ : θ R m }.

KAPITOLA 3 Nelineárny regresný model 3.1 Príklady nelineárnych regresných modelov a úvod do kapitoly Príklad 3.1. Pre výchylku kmitajúceho hmotného bodu (gulička na pružine) v čase t platí s(t) = exp{ βt}a sin(ωt + ϕ), kde β > 0 je koeficient tlmenia, A > 0 je počiatočná amplitúda kmitania, uhlová rýchlost ω > 0 predstavuje ako rýchlo pružina kmitá a ϕ [0, 2π) je počiatočná fáza. V časoch t i, i = 1,...,N, meriame hodnoty y i = s(t i ) + ε i, kde ε i sú chyby meraní, o ktorých predpokladáme, že ich štatistické vlastnosti sú nezávislé od hodnoty neznámych parametrov β, A, ω, ϕ. Teda vlastnosti chýb sa v podstate zhodujú s vlastnost ami chýb v lineárnom modeli, avšak neznáme parametre teraz vystupujú nelineárne. Otázkou je, či by sme priebeh funkcie s(t) v predchádzajúcom príklade nemali radšej aproximovat polynómom dostatočne vysokého rádu. V tom prípade by sa nelineárny regresný model nahradil lineárnym, a teda teoretická i výpočtová stránka problému by sa značne zjednodušila. Tento postup nemusí byt výhodný. S rastúcim počtom parametrov klesá presnost odhadu krivky s(t) a, čo je ešte dôležitejšie, kým pôvodné parametre majú pre fyzika výpovednú hodnotu, parametre polynómu žiadnu výpovednú hodnotu nemajú. Príklad 3.2. Majme diferenciálnu rovnicu opisujúcu nejaký fyzikálny jav d 2 z(t) dt 2 + a dz(t) dt + bz(t) + c = 0

36 3. NELINEÁRNY REGRESNÝ MODEL s neznámymi parametrami a, b, c R. V riešení z(t) vystupujú neznáme parametre nelineárne. Model sa následne kalibruje na reálnych dátach, t. j. na základe pozorovaní y i hodnoty z(t i ) v časoch t i, i = 1,...,N sa hl adajú odhady parametrov a, b, c, čo vedie na úlohu nelineárnej regresie. Príklad 3.3. Je zaujímavé, že aj v aplikačných modeloch, kde, na rozdiel od fyziky, používané modely nie sú a priori teoreticky zdôvodnené, sa s obl ubou používajú aj nelineárne modely. Ako príklad uvádzame model rastu počtu baktérií v potravine [BR94]. Počet baktérií y i v čase x i je náhodný a je tu modelovaný vzt ahom kde E[y i ] = ln(θ 1 ) + θ 2 x i + ln[a(x i, θ)] ln[b(x i, θ)], i = 1,...,N, A(x,θ) = exp{ θ 2 x} + exp{θ 2 θ 3 } exp{ θ 2 x θ 2 θ 3 }, B(x,θ) = 1 + (exp{θ 2 A(x,θ)} 1) θ 1 θ 4. Tu θ 1 je počiatočný počet baktérií, θ 2 je maximálna rýchlost nárastu počtu baktérií, θ 3 je čas zanedbatel nej kazivosti potraviny a θ 4 je počet baktérií v úplne pokazenej potravine. Príklad 3.4. Ako posledný príklad uvedieme Michaelisov-Mentenov model, pozri [MM13], s ktorým sa v tejto kapitole ešte niekol kokrát stretneme. Ide o jednoduchý a azda najznámejší model opisujúci kinetiku enzýmov. Presnejšie, model opisuje rýchlost prebiehajúcej reakcie medzi enzýmom a substrátom. Ak x je koncentrácia substrátu, potom rýchlost reakcie je v x = v maxx K M + x. Všimnime si, že rýchlost reakcie sa zvyšuje so zvyšujúcou sa koncentráciou x substrátu. Asymptoticky dosahuje táto rýchlost hodnotu v max, ked sa na substrát naviaže všetok enzým. Konštanta K M, tzv. Michaelisova konštanta, zodpovedá koncentrácii substrátu, pri ktorej sa rýchlost reakcie rovná 1 2 v max. Hodnoty v max a K M sú neznáme, a treba ich určit na základe meraní rýchlosti v xi pri rôznych koncentráciách x i. Čo bude predmetom kapitoly o nelineárnych regresných modeloch? Podobne ako v kapitole 2, chceme riešit úlohu odhadu parametra θ metódou najmenších štvorcov (metódou maximálnej vierohodnosti v prípade normálnych chýb). Ukazuje sa, že to je omnoho t ažšie. Nielenže nemáme explicitné vzorce pre takéto odhady a treba použit iteračné počítačové metódy, ale d alšie značné t ažkosti vznikajú, ked príslušná informačná matica modelu je singulárna. Aj otázka existencie a jednoznačnosti odhadu je komplikovanejšia.

LOKÁLNA LINEARIZÁCIA NELINEÁRNEHO REGRESNÉHO MODELU 43 R N y T (ˆθ) η(ˆθ) E = {η(θ) : θ Θ} Obrázok 3.1: Ak ˆθ je odhad MNŠ v nelineárnej regresii, potom spomedzi všetkých bodov η(θ) z plochy stredných hodnôt {η(θ) : θ Θ} je najbližšie k bodu y bod η(ˆθ). Odhad ˆθ parametra θ musí zrejme spĺňat rovnost 0 = θ y η(θ) 2 W θ=ˆθ = 2 η(θ)t θ W 1 [η(ˆθ) y], θ=ˆθ čo znamená kolmost reziduálneho vektora ν = y η(ˆθ) na dotykové vektory η(ˆθ) θ 1,..., η(ˆθ) θ m, a teda aj na priestor L (ˆθ). 3.4 Lokálna linearizácia nelineárneho regresného modelu V niektorých inžinierskych aplikáciách je známa približná hodnota θ parametra modelu. Označme θ skutočnú hodnotu parametra, pričom sa predpokladá, že θ nie je príliš vzdialené od θ a parameter σ 2 nie je príliš vel ký. Čo to znamená príliš vzdialené a príliš vel ké vysvetlíme neskôr. Potom skutočný

44 3. NELINEÁRNY REGRESNÝ MODEL y {η(θ) : θ Θ} η( θ) η(θ ) η(ˆθ) F ( θ θ ) + η(θ ) Obrázok 3.2: Linearizácia nelineárneho regresného modelu. model (3.1) môžeme aproximovat jeho linearizáciou v okolí θ, t. j. y. = η(θ ) + η(θ ) θ T (θ θ ) + ε. Ak označíme y = y η(θ ) a F = η(θ ), tak môžeme uvažovat aproximatívny model v tvare θ T y = F (θ θ ) + ε. (3.3) Pre odhad MNŠ v tomto modeli θ = arg min θ R m y F (θ θ ) 2 W platí θ θ = [(F ) T W 1 F ] 1 (F ) T W 1 y. (3.4) Situácia je graficky znázornená na obrázku 3.2 pre prípad dim(θ) = 1. Veta 3.9. V prípade normálne rozdelených chýb a známeho σ 2 Fisherova informačná matica v bode θ v pôvodnom modeli (3.1) je 1 η T (θ ) σ 2 W 1 η(θ ) θ θ T 1 σ 2M(θ ), a táto sa zhoduje s Fisherovou informačnou maticou v linearizovanom modeli (3.3). Dôkaz. Cvičenie 3.3. Pozrime sa, aká je presnost odhadu θ určeného vzt ahom (3.4), ak platí model (3.1). Presnejšie, analyzujme jeho varianciu a strednú hodnotu. Za predpokladu správnosti modelov (3.1) alebo (3.3) zhodne platí Var[ θ] = σ 2 [(F ) T W 1 F ] 1 = σ 2 M 1 (θ ).

76 3. NELINEÁRNY REGRESNÝ MODEL 3.10 Hustota pravdepodobnosti odhadu ˆθ v prípade normálne rozdelených chýb meraní V predchádzajúcej časti sme ukázali, ako možno pomocou oblasti spol ahlivosti charakterizovat presnost odhadu MNŠ ˆθ. Iný spôsob je možný pomocou aproximačných vzt ahov pre hustotu pravdepodobnosti odhadu ˆθ. V časti 3.7 sme ukázali, že pri dostatočne vel kom počte nezávislých meraní možno túto hustotu aproximovat hustotou normálneho rozdelenia N( θ, σ 2 M 1 ( θ)), kde θ je skutočná hodnota parametra θ. V tejto časti čiastočne odvodíme vzt ah, ktorý vel mi dobre aproximuje hustotu pravdepodobnosti náhodného vektora ˆθ v modeli y = η(θ) + ε, ε N(0, σ 2 W), pri l ubovol nom počte pozorovaní N. Zvlášt dobrá je táto aproximácia, ked dim(θ) = 1, alebo ak dim(θ) je malé a sú splnené d alšie podmienky modelu, ktoré naznačíme v texte. Diskutovaná aproximácia hustoty pravdepodobnosti má tvar q(ˆθ θ) det[q(ˆθ, = θ)] { (2π) m/2 σ m det 1/2 [M(ˆθ)] exp 1 } P(ˆθ)[η(ˆθ) η( θ)] 2σ 2W 2, (3.25) kde Q(ˆθ, θ) = M(ˆθ) + [η(ˆθ) η( θ)] T W 1 [I P(ˆθ)] 2 η(ˆθ) θ θ T. Tento vzt ah bol prvýkrát odvodený v článku [P84]. O rok neskôr bol získaný ten istý vzt ah asymptotickými metódami [H85] pre N, ale pri podstatne rýchlejšej konvergencii, než je tá, pomocou ktorej získame asymptotickú normalitu hustoty pravdepodobnosti odhadu MNŠ (veta 3.22). My odvodíme vzt ah (3.25) pre dim(θ) = 1, všeobecný prípad je podstatne zložitejší a možno ho nájst v [P84; P93]. Hodnota distribučnej funkcie náhodnej veličiny ˆθ v bode t sa približne rovná (pozri obrázok 3.10) {. F(t) = Pr{y D(t)} = Pr y : [y η(t)] T W 1 η(t) } < 0 t { } = Pr y : [y η( θ)] T W 1 n(t) < [η(t) η( θ)] T W 1 n(t) kde = [η(t) η( θ)] T W 1 n(t) n(t) = 1 (2π) 1/2 σ exp η(t) t η(t) t W. { u2 2σ 2 } du,

HUSTOTA ODHADU MNŠ V PRÍPADE NORMÁLNE ROZDELENÝCH CHÝB 77 η( θ) D(t) η(t) n(t) {η(θ) : θ Θ} Obrázok 3.10: Geometria odvodenia hustoty pravdepodobnosti odhadu MNŠ pre dim(θ) = 1. Posledná rovnost platí preto, že náhodná veličina z = [y η( θ)] T W 1 n(t) je lineárnou funkciou vektora y, teda je normálne rozdelená, pričom E[z] = [E[y] η( θ)] T W 1 n(t) = 0, Var[z] = n T (t)w 1 Var[y]W 1 n(t) = σ 2. Derivovaním funkcie F(t) dostaneme požadovanú hustotu q(t θ). Skutočne, { df(t) = exp 1 } dt 2σ 2[η(t) η( θ)] T W 1 n(t)n T (t)w 1 [η(t) η( θ)] d ( ) [η(t) η( θ)] T W 1 1 n(t) dt (2π) 1/2 σ a využijeme, že n(t)n T (t)w 1 = P(t) a že η(t) d [η(t) η( θ)] T W 1 t dt = = η T (t) t W 1 η(t) t ( η T (t) t W Q(t, θ) M 1/2 (t), 1 η(t) t ) 1/2 + η(t) t W [η(t) η( θ)] T W 1 [ pretože v prípade dim(θ) = 1 je M(θ) = η(t) t I η(t) t η(t) t W 2. W η(t) T t η(t) t 2 W W 1 ] 2 η(t) t 2 Je geometricky jasné, v čom spočíva aproximácia pri tomto odvodení hustoty. Pre blízke body t 1, t 2 sa hranice polpriestorov D(t 1 ) a D(t 2 ) pretínajú, čo sme zanedbali. Problém s touto aproximáciou vzniká, ak má model

KAPITOLA 4 Navrhovanie optimálnych experimentov v lineárnom regresnom modeli 4.1 Úvod a základná schéma V tejto kapitole sa budeme zaoberat možnost ami zvýšenia presnosti odhadov v experimentoch opísaných lineárnym modelom. Z kapitoly 2 je zrejmé, že túto presnost môžeme zvýšit zväčšením počtu meraní v experimente. Základná schéma bude predpokladat, že celkový počet meraní (resp. celkové náklady na experiment) je daný. Optimalizácia experimentu sa teda dosiahne vhodnou vol bou pokusov zaradených do experimentu. Vo všeobecnosti tu vznikajú dva problémy: čo považovat za mieru presnosti celého experimentu a ako docielit, aby táto miera presnosti bola čo najväčšia. Prvý problém vedie k úvahám o vol be tzv. kritérií optimality experimentu. Druhý problém vedie k matematickej teórii a algoritmom, ktoré nám umožňujú vypočítat optimálny návrh experimentu. Špeciálne budeme zist ovat, aké sú nutné a postačujúce podmienky optimality a aké výpočtové postupy možno použit na získanie (približne) optimálnych experimentov. Ukazuje sa, že ku značnému zjednodušeniu problému dochádza, ak za návrh experimentu považujeme relatívne frekvencie jednotlivých pokusov. V takom prípade netreba vopred stanovit celkový počet pokusov. Pretože relatívna frekvencia je pravdepodobnostná miera, množina všetkých takto formulovaných návrhov experimentu vytvára konvexnú množinu. Navyše sa ukazuje, že najpoužívanejšie štatisticky zdôvodnené kritériá optimality sú konvexnými funkciami na tejto množine. Matematicky ide teda o špeciálny prípad konvexnej optimalizácie, ktorá má vel mi dobré vlastnosti. Je vhodné, ak čitatel už má určité skúsenosti s konvexnými funkciami a množinami, ale nie je to nutné. Pokial je to možné, všetky potrebné poznatky odvodzujeme a opät je tu vel - mi nápomocná geometrická intuícia (napr. pri interpretácii kritérií optimality

84 4. NAVRHOVANIE OPTIMÁLNYCH EXPERIMENTOV V LINEÁR. REG. MODELI pomocou elipsoidu koncentrácie alebo pri tzv. Elfvingovej množine). Myslíme si, že je dôležité, že sa poslucháč dozvie nielen nové štatistické poznatky o lineárnom modeli, ale získa aj vedomosti o základoch konvexnej analýzy. Myšlienka navrhovania štatistického experimentu je taká stará ako štatistika sama. Napríklad pri navrhovaní experimentov spracovaných pomocou variančnej analýzy bol najdôležitejší prínos R. A. Fishera [F35]. Optimalizácia experimentov, ako ju poznáme dnes, sa začala vyvíjat v 50. 60. rokoch minulého storočia. Priekopnícke boli práce J. Kiefera [KW59] a G. Elfvinga [E52], učebnice k tejto problematike sa objavili až neskôr. Najznámejšie sú [F72; S80; P86; PU93; AD92] a d alšie vznikajú dodnes. Príklady reálneho použitia metód navrhovania experimentu možno nájst v [AD92; FP68] a v slovenskej publikácii [PM86]. Ani jedna z týchto kníh nie je však vhodná ako učebnica pre vysokoškolské štúdium matematickej štatistiky, túto medzeru sa snaží zaplnit predkladaný text, ktorý by mal byt vhodnou prípravou pre prípadné podrobnejšie štúdium i aplikácie. Príklad 4.1. Majme laboratórne váhy a tri predmety A, B, C s neznámymi hmotnost ami α, β a γ. Váhy majú systematickú chybu δ, náhodnú chybu ε N(0, σ 2 I) a máme povolené 4 pokusy. Uvažujme model merania y 1 = δ + ε 1, (prázdna váha) y 2 = δ + α + ε 2, (predmet A) y 3 = δ + β + ε 3, (predmet B) y 2 = δ + γ + ε 4, (predmet C), t. j. najprv zist ujeme systematickú chybu a potom vážime každý predmet zvlášt. Takýto postup váženia sa zdá byt prirodzený. Pol ahky zistíme, že odhady MNŠ hmotností jednotlivých telies sú ˆα = y 2 y 1, ˆβ = y 3 y 1 a ˆγ = = y 4 y 1. Teda E[ˆα] = E[y 2 y 1 ] = δ + α δ = α. To znamená, že odhad je nevychýlený, nevychýlenost dostaneme obdobne aj pre ostatné parametre. Variancia prvého odhadu je Var[ˆα] = Var[y 2 y 1 ] = Var[y 2 ] + Var[y 1 ] = 2σ 2, a rovnako dostaneme, že odhady ˆβ aj ˆγ majú varianciu 2σ 2. Teraz sa pozrime na inú, neintuitívnu schému merania: y 1 = δ + α + β + γ + ε 1, (všetky predmety) y 2 = δ + α + ε 2, (predmet A) y 3 = δ + β + ε 3, (predmet B) y 2 = δ + γ + ε 4, (predmet C) čiže namiesto merania systematickej chyby odvážime všetky predmety naraz. Riešením sústavy opät dostaneme nevychýlené odhady MNŠ ˆα = (y 1 + y 2 y 3 y 4 )/2, ˆβ = (y 1 + y 3 y 2 y 4 )/2 a ˆγ = (y 1 + y 4 y 2 y 3 )/2. Pozrime sa však na varianciu týchto odhadov. Var[ˆα] = (σ 2 + σ 2 + σ 2 + σ 2 )/4 = σ 2 (podobne aj ostatné odhady), čiže takáto schéma merania nám dá odhady, ktoré majú o polovicu nižšiu varianciu.

VLASTNOSTI KRITÉRIÍ OPTIMALITY 101 5000 1 2 t2 h αh t t 0 t 0 100 t 1 2 t2 co ( {(t, 1 2 t2 ), t [0, 100]} {( t, 1 2 t2 ), t [0, 100] ) Obrázok 4.5: K príkladu o Elfvingovej vete pre model y = v 0 t + 1 2 at2, t [0,100]. 4.6 Vlastnosti kritérií optimality 4.6.1 D-optimalita Kritérium D-optimality má výnimočné postavenie medzi ostatnými kritériami optimality, a to ako pre niektoré výnimočné vlastnosti, tak aj pre jeho popularitu v aplikáciách. Budeme uvažovat kriteriálnu funkciu pre D-optimalitu v tvare Φ[M] = ln[det(m)]. Veta 4.25. Kritérium D-optimality je konvexná funkcia, ktorá je rýdzo konvexná na množine kladne definitných matíc. Dôkaz. Chceme dokázat, že Φ[(1 α) M + αm] (1 α)φ[ M] + αφ[m]. Ak je niektorá z matíc M,M singulárna, potom dostávame na pravej strane +. Preto uvažujme, že sú obe matice kladne definitné. Z lemy 1.5 a z faktu [U T ] 1 = [U 1 ] T vyplýva, že M = V T V a M = V T ΛV, kde V = U 1 je regulárna m m matica a Λ je diagonálna matica s kladnými prvkami λ 1,...,λ m na diagonále. Počítajme: Φ[(1 α) M [ ( )] + αm] = ln det V T [(1 α)i + αλ]v = ln[det(v T V)] ln[det((1 α)i + αλ)]

102 4. NAVRHOVANIE OPTIMÁLNYCH EXPERIMENTOV V LINEÁR. REG. MODELI = ln[det(v T V)] m ln[(1 α) + αλ i ] i=1 m m ln[det(v T V)] (1 α) ln(1) α ln(λ i ) i=1 i=1 = ln[det(v T V)] (1 α)ln[det(i)] α ln[det(λ)] = (1 α)ln[det(v T V)det(I)] α ln[det(v T V)det(Λ)] = (1 α)ln[det( M)] α ln[det(m)] = (1 α)φ[ M] + αφ[m], pričom nerovnost je ostrá, ak 0 < α < 1, pretože logaritmus je rýdzo konkávna funkcia. V dôkaze sme využili, že det(v T V)det(Λ) = det(v T )det(v)det(λ) = det(v T ΛV). Dôsledok 4.26. D-optimálna informačná matica je jediná. (Optimálny návrh nie je určený jednoznačne, pretože rôzne návrhy môžu dat rovnakú informačnú maticu.) Dôkaz. Sporom. Nech M M sú D-optimálne matice. Potom ln[det(m)] = ln[det( M)] ln[det(m )] M. Z rýdzej konvexnosti D-optimality vyplýva: ln[det( 1 2 M + 1 2 M)] < 1 2 ln[det(m)] 1 ln[det( M)] 2 = ln[det(m)] = ln[det( M)], čo je spor, lebo sme našli D-optimálnejšiu informačnú maticu 1 2 M+ 1 2 M. Veta 4.27. Kritérium D-optimality je spojitá funkcia. Dôkaz. Determinant je spojitá funkcia, lebo je to polynóm prvkov matice, a rovnako je spojitou funkciou aj logaritmus. Zložením spojitých funkcií dostaneme opät spojitú funkciu. Definícia 4.28. Nech Φ[M] je nejaká diferencovatel ná reálna funkcia na otvorenej podmnožine R m m. Potom gradient funkcie Φ je matica Φ typu m m v tvare { Φ[M]} ij = Φ[M] M ij, i, j = 1,...,m. Je zrejmé, že derivovanie je možné len na otvorenej podmnožine množiny všetkých matíc typu m m. Tu je užitočná nasledujúca lema.

KAPITOLA 5 Navrhovanie optimálnych experimentov v nelineárnom regresnom modeli 5.1 Úvod Podobne ako v prípade lineárneho modelu, aj v prípade nelineárnych modelov X predstavuje množinu možných pokusov a našou úlohou je hl adat optimálny návrh (x 1,...,x N ) o rozsahu N bodov. Tentoraz však predpokladáme, že pozorovania vychádzajú z nelineárneho modelu y x = η(x,θ) + ε x, pričom E[ε x ] = 0 a Var[ε x ] = σ 2. Vychádzame z nasledujúcej tézy: Množstvo informácie o parametri θ, ktoré získame z meraní, vel mi závisí od polohy skutočnej hodnoty θ parametra θ. Problém sa dá vysvetlit jednoducho geometricky. Vzhl adom na nelinearitu modelu (pozri čast 3.8 o mierach nelinearity) je zrejmé, že ak rozdelíme parametrický priestor Θ na diely rovnakého objemu, tak obrazy týchto dielov na ploche stredných hodnôt {η(θ) : θ Θ} nebudú mat rovnaký objem vzhl adom na Lebesgueovu mieru na ploche stredných hodnôt (čiže niektoré budú väčšie a iné menšie). A teda koncentrácia hustoty odhadu ˆθ okolo θ závisí od polohy θ, a preto aj presnost odhadu bude závisiet od θ. Grafická interpretácia uvedeného argumentu je ilustrovaná na obrázku 5.1. Z uvedenej tézy vyplýva, že pri navrhovaní experimentov v nelineárnych modeloch potrebujeme aj apriórnu vedomost o θ. To však môže byt vel ký problém. Druhý problém, ktorý vychádza z nelinearity modelu, je spôsob ohodnotenia kvality návrhu, t. j. sformulovanie vhodných kritérií optimality. Prakticky

122 5. NAVRHOVANIE OPTIMÁLNYCH EXPERIMENTOV V NELIN. REG. MODELI η( θ 1 ) {η(θ) : θ Θ} η( θ 2 ) f(ˆθ) θ 1 θ2 ˆθ Obrázok 5.1: Závislost koncentrácie hustoty f(ˆθ) od polohy θ. Čierne bodky vyznačujú delenie plochy stredných hodnôt {η(θ) : θ Θ} pri rovnomernom delení priestoru parametra Θ. Štvorce predstavujú pozorované vektory y v jednotlivých experimentoch a päty kolmíc z týchto vektorov na plochu stredných hodnôt predstavujú body η(ˆθ). Dole sú naznačené výsledné hustoty odhadov MNŠ ˆθ. sa skoro vždy vychádza z asymptotickej normality odhadu MNŠ. Pre pripomenutie, veta o asymptotickej normalite hovorí, že pre vel ké N približne platí ( ˆθ N θ, σ 2 1 ) N M 1 (ξ, θ), (5.1) kde M(ξ, θ) = x X f(x, θ)f T (x, θ)ξ(x) a f(x,θ) = η(x,θ) θ. Budeme sa zaoberat štyrmi základnými prístupmi k formuláciám kritérií optimality: lokálne kritériá, priemerovacie kritériá, minimaxné kritériá, kritériá určené apriórnymi distribučnými funkciami lokálnych kritérií. 5.2 Lokálne kritériá optimality V prípade lokálnych kritérií optimality predpokladáme, že poznáme hodnotu θ parametra θ, ktorá je blízka skutočnej hodnote θ. To znamená, že pri asymptotickom prístupe v (5.1) nahradíme M(ξ, θ) maticou M(ξ,θ ) =

Literatúra [A85] [AD92] [BR94] [B74] [BW80] [BW88] Anděl, J.: Matematická statistika. Praha : SNTL/Bratislava : Alfa, 1985. Atkinson, A. C. Donev, A. N.: Optimum Experimental Designs. Oxford : Oxford University Press, 1992. Baranyi, J. Roberts, T. A.: A dynamic approach to predicting bacterial growth in food. International Journal of Food Microbiology 23 (1994), 277 294. Bard, Y.: Nonlinear Parametric Estimation. New York : Academic Press, 1974. Bates, D. M. Watts, D. G.: Relative Curvature Measures of Nonlinearity. Journal of the Royal Statistical Society. Series B 40 (1980), 1 25. Bates, D. M. Watts, D. G.: Nonlinear Regression Analysis and its Applications. New York : Wiley, 1988. [DM74] Demjanov, V. F. Malozemov, V. N.: Introduction to Minimax. New York : Dover, 1974. [DS98] [E52] [F72] [FP68] [F35] Draper, N. R. Smith, H.: Applied Regression Analysis. 3. vydanie. New York : Wiley, 1998. Elfving, G.: Optimum allocation in linear regression. Annals of Mathematical Statistics 23 (1952), 255 262. Fedorov, V. V.: Theory of Optimal Experiments. New York : Academic Press, 1974. Fedorov, V. V. Pázman, A.: Design of Physical experiments (Statistical methods). Fortschritte der Physik 16 (1968), 325 355. Fisher, R. A.: The Design of Experiments. Oxford : Oliver&Boyd, 1935.

130 LITERATÚRA [G87] Gallant, A. R.: Nonlinear Statistical Models. New York : Wiley, 1987. [H04] [HJ08] Harman, R.: Minimal efficiency of designs under the class of orthogonally invariant information criteria. Metrika 60 (2004), 137 153. Harman, R. Jurík, T.: Computing c-optimal experimental designs using the simplex method of linear programming. Computational Statistics & Data Analysis 53 (2008), 247 254. [H00] Harville, D. A.: Matrix Algebra From a Statistician s Perspective. 3. vydanie. New York : Springer, 2000. [H85] [JP11] [J69] [KW59] [K03] [K92] [K95] [LP98] Hougaard, P.: Saddlepoint approximations for curved exponential families. Statistics & Probability Letters 3 (1985), 161 166. Janková, K. Pázman, A.: Pravdepodobnost a štatistika. Bratislava : Univerzita Komenského v Bratislave, 2011. Jennrich, R. L.: Asymptotic properties of nonlinear least squares estimation. Annals of Mathematical Statistics 40 (1969), 633 643. Kiefer, J. Wolfowitz, J.: Optimum designs in regression problems. Annals of Mathematical Statistics 30 (1959), 271 294. Korbaš, J.: Lineárna algebra a geometria I. Bratislava : Univerzita Komenského v Bratislave, 2003. Koutková, H.: On estimable and locally estimable functions in the nonlinear regression model. Kybernetika 28 (1992), 120 128. Kubáček, L. Kubáčková, L. Volaufová, J.: Statistical Models with Linear Structures. Bratislava : Veda, 1995. Lamoš, F. Potocký, R.: Pravdepodobnost a matematická štatistika: Štatistické analýzy. Bratislava : Univerzita Komenského v Bratislave, 1998. [MM13] Menten, L. Michaelis, M. I.: Die Kinetik der Invertinwirkung. Biochem. Z. 49 (1913), 333 369. [MP98] [P80] [P84] Müller, Ch. H. Pázman, A.: Applications of necessary and sufficient conditions for maximum efficient design. Metrika 48 (1998), 1 19. Pázman, A.: Základy optimalizácie experimentu. Bratislava : Veda, 1980. Pázman, A.: Probability distribution of the multivariate nonlienar least squares estimates. Kybernetika 20 (1984), 209 230.

LITERATÚRA 131 [P86] Pázman, A.: Foundations of Optimum Experimental Design. Dordrech : Reidel (Kluwer Group) v koprodukcii s vydavatel stvom Veda, 1986. [P93] Pázman A.: Nonlinear Statistical Models. Dordrecht : Kluwer, 1993. [PM86] [PP92] [PP07] [PB94] [PP12] [PU93] [R78] [R88] [R83] [R70] [SW03] Pázman, A. Mikulecká, J. Raffaj, V. Tokošová, M.: Riešené situácie z navrhovania experimentov. Bratislava : Alfa, 1986. Pázman, A. Pronzato, L.: Nonlinear experimental design based on the distribution of estimators. Journal of Statistical Planning and Inference 33 (1992), 382 407. Pázman, A. Pronzato, L.: Quantile and probability-level criteria for nonlinear experimental design. Advances in Model-Oriented Design and Analysis (Eds. J. Lopéz-Fidalgo, J. M. Rodríguez-Díaz, B. Torsney), 157 164. Heildelberg : Springer, 2007. Potocký, R. Ban, T. V.: Confidence region and the problem of reparametrization in nonlinear regression. Tatra Mountains Mathematical Publications 7 (1996), 223 227. Pronzato, L. Pázman, A.: Design of experiments in nonlinear models. New York : Springer, 2012. v tlači Pukelsheim, F.: Optimal Design of Experiments. New York : Wiley, 1993. Rao, C. R.: Lineární metody statistické indukce a jejich aplikace. Praha : Academie, 1978. Rao, C. R.: Methodology based on the L 1 -norm, in statistical inference, Sankhyā Ser. A 50 (1988), 289 313. Ratkowsky, D. A.: Nonlinear Regression Modeling. New York : Marcel Dekker, 1983. Rockafellar, R. T.: Convex Analysis. New Jersey : Princeton University Press, 1970. Seber, G. A. F. Wild, C. J.: Nonlinear Regression. New Jersey : Wiley, 2003. [S95] Stapleton, J. H.: Linear Statistical Models. New York : Wiley, 1995. [S02] Štulajter, F.: Predictions in Time Series Using Regression Models. New York : Springer, 2002. [S80] Silvey, D. D.: Optimal Design. London : Chapman and Hall, 1980.

132 LITERATÚRA [S94] [WP97] [Z11] Silvey, D. D.: Statistical Inference. London : Chapman and Hall, 1994. Walter, E. Pronzato, L.: Identification of Parametric Models from Experimental Data. Heidelberg : Springer, 1997. Zlatoš, P.: Lineárna algebra a geometria. Bratislava : Marenčin PT, 2011. [Z89] Zvára, K.: Regresní analýza. Praha : Academie, 1989.