LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

Similar documents
GENERALIZIRANI LINEARNI MODELI. PROPENSITY SCORE MATCHING.

TEORIJA SKUPOVA Zadaci

Metoda parcijalnih najmanjih kvadrata: Regresijski model

Cherry.R. > cherry d h v <portion omitted> > # Step 1.

Homework for Lecture Regression Analysis Sections

Neural networks (not in book)

Ch 2: Simple Linear Regression

Fajl koji je korišćen može se naći na

Inference for Regression

Ch 3: Multiple Linear Regression

Projektovanje paralelnih algoritama II

Formule za udaljenost točke do pravca u ravnini, u smislu lp - udaljenosti math.e Vol 28.

x 21 x 22 x 23 f X 1 X 2 X 3 ε

Applied Regression Analysis

Lecture 15 Multiple regression I Chapter 6 Set 2 Least Square Estimation The quadratic form to be minimized is

Poisson regression 1/15

STAT5044: Regression and Anova. Inyoung Kim

Mathcad sa algoritmima

KRITERIJI KOMPLEKSNOSTI ZA K-MEANS ALGORITAM

LINEARNI MODELI 3 STATISTIČKI PRAKTIKUM 2 4. VJEŽBE

Procjena funkcije gustoće

Lecture 15. Hypothesis testing in the linear model

1. zadatak. Stupcasti dijagram podataka: F:\STATISTICKI_PRAKTIKUM\1.KOLOKVIJ. . l_od_theta.m poisson.m test.doc.. podaci.dat rjesenja.

Simple and Multiple Linear Regression

Regression Review. Statistics 149. Spring Copyright c 2006 by Mark E. Irwin

STAT 540: Data Analysis and Regression

Simple Linear Regression

Metode izračunavanja determinanti matrica n-tog reda

Hornerov algoritam i primjene

THE ROLE OF SINGULAR VALUES OF MEASURED FREQUENCY RESPONSE FUNCTION MATRIX IN MODAL DAMPING ESTIMATION (PART II: INVESTIGATIONS)

Interpretation, Prediction and Confidence Intervals

STAT420 Midterm Exam. University of Illinois Urbana-Champaign October 19 (Friday), :00 4:15p. SOLUTIONS (Yellow)

Strojno učenje 3 (II dio) Struktura metoda/algoritama strojnog učenja. Tomislav Šmuc

Chapter 11: Linear Regression and Correla4on. Correla4on

VIŠESTRUKO USPOREĐIVANJE

NAPREDNI FIZIČKI PRAKTIKUM II studij Geofizika POLARIZACIJA SVJETLOSTI

1 Pogreške Vrste pogrešaka Pogreške zaokruživanja Pogreške nastale zbog nepreciznosti ulaznih podataka

REVIEW OF GAMMA FUNCTIONS IN ACCUMULATED FATIGUE DAMAGE ASSESSMENT OF SHIP STRUCTURES

Linear models and their mathematical foundations: Simple linear regression

PRIPADNOST RJEŠENJA KVADRATNE JEDNAČINE DANOM INTERVALU

Linear Regression Model. Badr Missaoui

NIZOVI I REDOVI FUNKCIJA

Handout 4: Simple Linear Regression

Math 3330: Solution to midterm Exam

Outline. Remedial Measures) Extra Sums of Squares Standardized Version of the Multiple Regression Model

The Prediction of. Key words: LD converter, slopping, acoustic pressure, Fourier transformation, prediction, evaluation

STAT 215 Confidence and Prediction Intervals in Regression

14 Multiple Linear Regression

Figure 1: The fitted line using the shipment route-number of ampules data. STAT5044: Regression and ANOVA The Solution of Homework #2 Inyoung Kim

Lab #5 - Predictive Regression I Econ 224 September 11th, 2018

Factorial and Unbalanced Analysis of Variance

ZANIMLJIV NAČIN IZRAČUNAVANJA NEKIH GRANIČNIH VRIJEDNOSTI FUNKCIJA. Šefket Arslanagić, Sarajevo, BiH

Lecture 10 Multiple Linear Regression

Chapter 12: Multiple Linear Regression

Ma 3/103: Lecture 24 Linear Regression I: Estimation

STAT Fall HW8-5 Solution Instructor: Shiwen Shen Collection Day: November 9

SCHOOL OF MATHEMATICS AND STATISTICS. Linear and Generalised Linear Models

Multiple Linear Regression

Ivan Soldo. Sažetak. U članku se analiziraju različiti načini množenja matrica. Svaki od njih ilustriran je primjerom.

Binomial Logis5c Regression with glm()

Linear regression. We have that the estimated mean in linear regression is. ˆµ Y X=x = ˆβ 0 + ˆβ 1 x. The standard error of ˆµ Y X=x is.

Strojno učenje 3 (I dio) Evaluacija modela. Tomislav Šmuc

STA 114: Statistics. Notes 21. Linear Regression

STAT 511. Lecture : Simple linear regression Devore: Section Prof. Michael Levine. December 3, Levine STAT 511

Master s Written Examination - Solution

Generalized Additive Models

Biostatistics. Correlation and linear regression. Burkhardt Seifert & Alois Tschopp. Biostatistics Unit University of Zurich

STATISTICAL ANALYSIS OF WET AND DRY SPELLS IN CROATIA BY THE BINARY DARMA (1,1) MODEL

Neprekidan slučajan vektor

Section 4.6 Simple Linear Regression

χ 2 -test i Kolmogorov-Smirnovljev test

3. For a given dataset and linear model, what do you think is true about least squares estimates? Is Ŷ always unique? Yes. Is ˆβ always unique? No.

STOR 455 STATISTICAL METHODS I

Sveučilište Jurja Dobrile u Puli Odjel za ekonomiju i turizam Dr. Mijo Mirković. Alen Belullo UVOD U EKONOMETRIJU

Homework 9 Sample Solution

Problems. Suppose both models are fitted to the same data. Show that SS Res, A SS Res, B

Final Review. Yang Feng. Yang Feng (Columbia University) Final Review 1 / 58

Applied Regression. Applied Regression. Chapter 2 Simple Linear Regression. Hongcheng Li. April, 6, 2013

STAT763: Applied Regression Analysis. Multiple linear regression. 4.4 Hypothesis testing

Statistics for analyzing and modeling precipitation isotope ratios in IsoMAP

Nonstationary Panels

No other aids are allowed. For example you are not allowed to have any other textbook or past exams.

4 Multiple Linear Regression

Multivariate Linear Regression Models

Chapter 5 Matrix Approach to Simple Linear Regression

Generalized Linear Models

Ariana Trstenjak Kvadratne forme

Measuring the fit of the model - SSR

13. October p. 1

Statistics. Introduction to R for Public Health Researchers. Processing math: 100%

Simetrične matrice, kvadratne forme i matrične norme

Weighted Least Squares

UNIVERSITY OF TORONTO SCARBOROUGH Department of Computer and Mathematical Sciences Midterm Test, October 2013

Coxov regresijski model

Variance Decomposition and Goodness of Fit

Exercise 5.4 Solution

The existence theorem for the solution of a nonlinear least squares problem

Quasi-Newtonove metode

Scripture quotations marked cev are from the Contemporary English Version, Copyright 1991, 1992, 1995 by American Bible Society. Used by permission.

Coefficient of Determination

Transcription:

LINEARNI MODELI STATISTIČKI PRAKTIKUM 2 2. VJEŽBE

Linearni model Promatramo jednodimenzionalni linearni model. Y = β 0 + p β k x k + ε k=1 x 1, x 2,..., x p - varijable poticaja (kontrolirane) ε - sl. greška Y - varijabla odaziva β 0, β 1,..., β p - parametri modela

Više opažanja U primjeni imamo više opažanja, pa to zapisujemo Y i = β 0 + p β k x ki + ε i, i = 1, 2,... n. k=1 gdje pretpostavljamo da su greške ε 1,..., ε n nezavisne s distribucijom N(0, σ 2 ). Kraće to zapisujemo u matričnom obliku Y = Xb + ε, gdje je Y = (Y 1,..., Y n ) τ, ε = (ε 1,..., ε n ) τ N(0, σ 2 I), b = (β 0, β 1,..., β p ) τ i 1 x 11... x 1p 1 x 21... x 2p X =... 1 x n1... x np

Metoda najmanjih kvadrata Ako želimo minimizirati ε 2 = Y Xb 2 po b dobivamo da je najbolja ocjena za b ˆb = (X τ X) 1 X τ Y, (uz uvjet da je X τ X regularna). Procijenjene vrijednosti tada su jednake Ŷ = Xˆb = X(X τ X) 1 X τ Y, }{{} H a ostaci e = Y Ŷ = (I H)Y.

Što sve vrijedi u našem modelu ˆb N(b, (X τ X) 1 σ 2 ); ˆb i b i t(n p 1); ˆσ (X τ X) 1 ii e N(0, (I H)σ 2 ); n i=1 e i = 0; ˆσ2 = eτ e n p 1 je nepristrani procjenitelj za σ2 i vrijedi (n p 1) ˆσ 2 σ 2 χ 2 (n p 1);

Goodness of fit Obično na tri načina ocjenjujemo koliko je model dobar: R 2 = 1 SST SSR = 1 n i=1 (Ŷ i Y i ) 2 n i=1 (Y i Y ) 2, koeficijent determinacije; ˆσ 2 = SSR n p 1 ; Ra 2 n i=1 = 1 (Ŷ i Y i ) 2 /(n p 1) n, prilagođeni R 2 ; i=1 (Y i Y ) 2 /(n 1) F = SSR 0 SSR p p 0 SSR n p F (p p 0, n p) test značajnosti modela.

Procjena parametara modela Za procjenu parametara modela koristimo naredbu lm, pritom rezultate analize možemo spremiti u neki objekt (specijalnog tipa lm ). rez=lm(y~x_1+x_2+...+x_n) Funkcija summary kao argument može primiti objek tipa lm i pritom ispisuje rezultate testova značajnosti parametara R 2, R 2 a, ˆσ rezultate testa značajnosti modela

Zadatak U datoteci gala.txt dani su podaci o broju vrsta kornjača na galapagoškom otočju (Johnson, Raven 1973.g). Postoji 30 otoka i 7 varijabli za svaki od njih. Varijable su Species - broj vrsta na pojedinom otoku Endemics - broj endemskih vrsta Area - površina otoka Elevation - visina najviše točke na otoku (m) Nearest - udaljenost do najbližeg otoka Scruz - udaljenost od otoka Santa Cruz Adjacent - površina najbližeg (susjednog) otoka Postoji li linearna ovisnost varijable Species o varijablama Area, Elevation, Nearest, Scruz, Adjacent?

Pojedini podaci U objektu rez pohranjeni su sljedeći podaci o linearnoj regresiji: > names(rez) [1] "coefficients" "residuals" "fitted.values" [4] "effects" "R" "rank" [7] "qr" "family" "linear.predictors" [10] "deviance" "aic" "null.deviance" [13] "iter" "weights" "prior.weights" [16] "df.residual" "df.null" "y" [19] "converged" "boundary" "model" [22] "call" "formula" "terms" [25] "data" "offset" "control" [28] "method" "contrasts" "xlevels" Procijenjene ostatci e, vektor koeficijenta ˆb i procijenjene vrijednosti ŷ pohranjeni su redom u objekte > rez$res; > rez$coef; > rez$fit.

Rezultate poziva funkcije summary možemo spremiti u neki objekt > sum=summary(rez) > names(sum) [1] "call" "terms" "residuals" "coefficients" [5] "aliased" "sigma" "df" "r.squared" [9] "adj.r.squared" "fstatistic" "cov.unscaled" Procjena varijance grešaka ˆσ, matrica (X τ X) 1, R 2 i R 2 a pohranjeni su redom u objekte > sum$sig > sum$cov > sum$r > sum$adj.r

Zadatak (a) Simulirajte podatke za model Y i = 1 + x i + 2 sin(x i ) + ε i, gdje je x i = i/10, za i = 0, 1,..., 100 i ε i N(0, 1) nezavisne. (b) Simulirane podatke prikažite grafički, zajedno s krivuljom srednje vrijednosti modela y(x) = 1 + x + 2 sin x. (c) Na temelju simuliranih podataka procijenite parametre modela i Y i = β 0 + β 1 x i + β 2 sin(x i ) + ε i (d) na prethodni graf dodajte krivulju procijenjenih vrijednosti modela ŷ(x) = ˆβ 0 + ˆβ 1 x + ˆβ 2 sin(x).

Pouzdani intervali za koeficijente Odredimo 90% pouzdani interval za svaki od koeficijenata. > confint(sl,level=0.9) 5 % 95 % (Intercept) 0.7685881 1.451205 x 0.9296179 1.045557 sin(x) 1.9348879 2.443392 (Koristi se statistika ˆb i b i ˆσ (X τ X) 1 ii t(n p 1).)

Pouzdani intervali za procjene Ako želimo procijeniti varijablu odaziva u novoj točki x 0, to je naravno ŷ 0 = x τ 0ˆb. No razlikujemo dvije procjene: 1. Procjena srednje vrijednosti x τ 0b (model bez šumova, želimo eliminirati greške u mjerenju). 2. Procjena opažanja x τ 0b + ε ( model sa šumom, zanimaju nas i greške). U prvom slučaju 100(1 α)% pouzdan interval je ŷ 0 ± t α/2 (n p 1)ˆσ x τ 0 (Xτ X) 1 x 0, a u drugom ŷ 0 ± t α/2 (n p 1)ˆσ 1 + x τ 0 (Xτ X) 1 x 0. U modelu je p varijabli poticaja, ali ukupan broj parametara je p+1 (uključujemo slobodni član).

1. Procjena srednje vrijednosti Procijenimo 80% pouzdani interval za srednje vrijednosti u točkama (x i ) 100 i=0 iz prethodnog zadatka. U vrijabli sl spremljeni su parametri modela. > pr1=predict(sl,level=0.8,i="c") > pr1[1:4,] fit lwr upr 1 1.109897 0.8446996 1.375094 2 1.427205 1.1690792 1.685330 3 1.742329 1.4897851 1.994873 4 2.053108 1.8046079 2.301608 Procijenimo srednju vrijednost u točki xx 0 = 11 i 60% pouzdani interval. > xx0=data.frame(x=11) > predict(sl,xx0,level=0.6,i= c ) fit lwr upr 1 9.78424 9.543608 10.02487 > 1+xx0+2*sin(xx0) x 1 10.00002

2. Procjena pouzdanih intervala za opažanja Procijenimo 85% pouzdani interval za opažanja u točkama (x i ) 100 i=0. > pr2=predict(sl,level=0.85,i= p ) > pr2[1:4,] fit lwr upr 1 1.109897-0.39965520 2.619448 2 1.427205-0.08079634 2.935206 3 1.742329 0.23552357 3.249135 4 2.053108 0.54715285 3.559063 Procijenimo opaženu vrijednost u točki xx 0 = 11 i 70% pouzdani interval. > predict(sl,xx0,level=0.7,i= p ) fit lwr upr 1 9.78424 8.680923 10.88756 > 1+xx0+2*sin(xx0)+rnorm(1,0,1) x 1 10.27153

Zadatak Prikažite na grafu simulirane podatke i (a) 80%-pouzdanu prugu za srednju vrijednost. (b) 85%-pouzdanu prugu za opažanja.