Multipla regresija. Iztok Grabnar. Univerza v Ljubljani, Fakulteta za farmacijo

Similar documents
LISREL. Mels, G. (2006). LISREL for Windows: Getting Started Guide. Lincolnwood, IL: Scientific Software International, Inc.

Multipla korelacija in regresija. Multipla regresija, multipla korelacija, statistično zaključevanje o multiplem R

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Econ 3790: Business and Economics Statistics. Instructor: Yogesh Uppal

Correlation and regression

Statistika 2 z računalniško analizo podatkov. Neizpolnjevanje predpostavk regresijskega modela

Biološka ekvivalenca Statistične metode. Iztok Grabnar

Analiza variance in linearna regresija

Linear regression. We have that the estimated mean in linear regression is. ˆµ Y X=x = ˆβ 0 + ˆβ 1 x. The standard error of ˆµ Y X=x is.

LI EAR REGRESSIO A D CORRELATIO

Estimating σ 2. We can do simple prediction of Y and estimation of the mean of Y at any value of X.

Correlation Analysis

Formal Statement of Simple Linear Regression Model

Ch 2: Simple Linear Regression

Econ 3790: Statistics Business and Economics. Instructor: Yogesh Uppal

Predictive Analytics : QM901.1x Prof U Dinesh Kumar, IIMB. All Rights Reserved, Indian Institute of Management Bangalore

Multiple linear regression

PART I. (a) Describe all the assumptions for a normal error regression model with one predictor variable,

Simple Linear Regression

The Multiple Regression Model

Regression Models - Introduction

Lecture 15 Multiple regression I Chapter 6 Set 2 Least Square Estimation The quadratic form to be minimized is

Cveto Trampuž PRIMERJAVA ANALIZE VEČRAZSEŽNIH TABEL Z RAZLIČNIMI MODELI REGRESIJSKE ANALIZE DIHOTOMNIH SPREMENLJIVK

Statistika 2 z računalniško analizo podatkov

Metode raziskovanja. Vzorčenje. Vzorčenje. Raziskovalni proces

Lecture 10 Multiple Linear Regression

UČNI NAČRT PREDMETA / COURSE SYLLABUS (leto / year 2017/18) Predmet: Statistika 2 Course title: Statistics 2. Študijska smer Study field

Chapter 4. Regression Models. Learning Objectives

: The model hypothesizes a relationship between the variables. The simplest probabilistic model: or.

Regression Analysis. Regression: Methodology for studying the relationship among two or more variables

Linear Regression. Simple linear regression model determines the relationship between one dependent variable (y) and one independent variable (x).

Multiple Regression. More Hypothesis Testing. More Hypothesis Testing The big question: What we really want to know: What we actually know: We know:

MATH ASSIGNMENT 2: SOLUTIONS

Regression used to predict or estimate the value of one variable corresponding to a given value of another variable.

Linear models and their mathematical foundations: Simple linear regression

F-tests and Nested Models

STA 108 Applied Linear Models: Regression Analysis Spring Solution for Homework #6

Chapter 14 Student Lecture Notes Department of Quantitative Methods & Information Systems. Business Statistics. Chapter 14 Multiple Regression

Teorija verjetnosti uvod. prof. dr. Jurij Tasič Asistent Emil Plesnik Laboratorij za digitalno obdelavo signalov, slik in videa

Multiple Regression. Peerapat Wongchaiwat, Ph.D.

UČNI NAČRT PREDMETA / COURSE SYLLABUS. Študijska smer Study field. Samost. delo Individ. work Klinične vaje work

Mathematics for Economics MA course

Lecture 3: Inference in SLR

Inference for Regression

UNIVERZA NA PRIMORSKEM FAKULTETA ZA MATEMATIKO, NARAVOSLOVJE IN INFORMACIJSKE TEHNOLOGIJE

Figure 1: The fitted line using the shipment route-number of ampules data. STAT5044: Regression and ANOVA The Solution of Homework #2 Inyoung Kim

PubH 7405: REGRESSION ANALYSIS. MLR: INFERENCES, Part I

4.1 Least Squares Prediction 4.2 Measuring Goodness-of-Fit. 4.3 Modeling Issues. 4.4 Log-Linear Models

WORKSHOP 3 Measuring Association

Statistics for Managers using Microsoft Excel 6 th Edition

Table of z values and probabilities for the standard normal distribution. z is the first column plus the top row. Each cell shows P(X z).

Lecture 9 SLR in Matrix Form

ENAČBA STANJA VODE IN VODNE PARE

Unit 11: Multiple Linear Regression

9. Linear Regression and Correlation

One-Way Analysis of Variance: A Guide to Testing Differences Between Multiple Groups

Correlation and the Analysis of Variance Approach to Simple Linear Regression

modeli regresijske analize nominalnih spremenljivk

STA 302 H1F / 1001 HF Fall 2007 Test 1 October 24, 2007

VAJE 2: Opisna statistika

ECON The Simple Regression Model

Lecture 9: Linear Regression

(ii) Scan your answer sheets INTO ONE FILE only, and submit it in the drop-box.

AMS 315/576 Lecture Notes. Chapter 11. Simple Linear Regression

STATISTICS. Multiple regression

Basic Business Statistics, 10/e

STAT5044: Regression and Anova. Inyoung Kim

OPTIMIRANJE IZDELOVALNIH PROCESOV

Multiple Regression and Model Building Lecture 20 1 May 2006 R. Ryznar

ENERGY AND MASS SPECTROSCOPY OF IONS AND NEUTRALS IN COLD PLASMA

Inferences for Regression

Concordia University (5+5)Q 1.

Biostatistics 380 Multiple Regression 1. Multiple Regression

Chapter 2 Inferences in Simple Linear Regression

STAT 540: Data Analysis and Regression

METODE PROUČEVANJA ZDRAVJA PREBIVALSTVA

CS 5014: Research Methods in Computer Science

Simple Linear Regression

STAT420 Midterm Exam. University of Illinois Urbana-Champaign October 19 (Friday), :00 4:15p. SOLUTIONS (Yellow)

Basic Business Statistics 6 th Edition

Simple Linear Regression Analysis

Multiple Linear Regression

Chapter 4: Regression Models

Subgroup analysis using regression modeling multiple regression. Aeilko H Zwinderman

Regression Analysis II

(Received )

Chapter 14 Simple Linear Regression (A)

The General Linear Model

MICROWAVE PLASMAS AT ATMOSPHERIC PRESSURE: NEW THEORETICAL DEVELOPMENTS AND APPLICATIONS IN SURFACE SCIENCE

Applied Regression Analysis

STAT Chapter 11: Regression

Garvan Ins)tute Biosta)s)cal Workshop 16/6/2015. Tuan V. Nguyen. Garvan Ins)tute of Medical Research Sydney, Australia

Linear Models and Estimation by Least Squares

The inductive effect in nitridosilicates and oxysilicates and its effects on 5d energy levels of Ce 3+

Area1 Scaled Score (NAPLEX) .535 ** **.000 N. Sig. (2-tailed)

Regression Models - Introduction

TOPLJENEC ASOCIIRA LE V VODNI FAZI

Lecture notes on Regression & SAS example demonstration

We like to capture and represent the relationship between a set of possible causes and their response, by using a statistical predictive model.

Transcription:

Multipla regresija Iztok Grabnar Univerza v Ljubljani, Fakulteta za farmacijo

Učenje/potrjevanje

3

Analiza povezanosti Opazovani pojav= odvisna spremenljivka Napovedni dejavnik= neodvisna spremenljivka Statistični modeli: Univariabilni: en napovedni dejavnik Povezava kot pomembna pokaže: zaradi dejanske povezanosti napovednega dejavnika s pojavom lahko tudi zaradi povezanosti z nekim drugim napovednim dejavnikom. Multivariabilni: več napovednih dejavnikov 4

Regresijska analiza Univariatna, bivariatna, multivariatna analiza Statistična spremenljivka Numerična zvezna Atributivna Dihotomna Linearna regresija Logistična regresija 5

Posplošeni linearni model Generalized Linear Model E( Y ) g ( X ) Povezovalna funkcija Linearni prediktor 0 + x + x +...+ n x n Var( Y ) V ( ) V ( g ( X )) 6

GLM Statistična spremenljivka Porazdelitev Povezovalna funkcija Zvezna Normalna =X Števna Poissonova =exp(x Dihotomna Binomska =exp(xexp(x 7

Grafični prikazi v analizi povezanosti Razsevni diagrami Odgovorne površine 0.6 50 0.5 40 0.4 30 y 0.3 z 0 0 0. 0 0. -0-0 3 0 0 0. 0.4 0.6 0.8. x -30 3 5 x 7 9 3 5 7 7 y 8

Enostavni linearni regresijski model Je enačba, ki opisuje odnos med odvisno (y) in neodvisno (x) spremenljivko in napako (). Enačba enostavnega linearnega regresijskega modela je: y = 0 + x + 0 in sta parametera modela. je napaka N(0, e ) 9

i y i yˆ i y i y ( x, y) ŷ i y x 0 x i X 0

Metoda najmanjših kvadratov miny yˆ i i y i = opažena i-ta vrednost odvisne spremenljivke ^ y i = ocena i-te vrednosti odvisne spremenljivke Johann Carl Friedrich Gauss (777-855)

Koeficient determinacije SST = SSR + SSE y ˆ ˆ i y yi y yi yi SST = celokupna vsota kvadratov SSR = vsota kvadratov regresije SSE = vsota kvadratov napake y yˆ i i y i i r SSR SST r koeficient korelacije y ( x, y) X ŷ i x i y x 0

Ocena e Varianca napake MSE ali s kjer: s = MSE = SSE/(n-) y ˆ ˆ i y yi y yi yi s MSE Standardna napaka ocene 3

Statistično sklepanje Ničelna statistična hipoteza: = 0 Dva pristopa t test F test Pri obeh je potrebna ocena e. 4

t test Hipotezi H 0 : = 0 H a : 0 Testna spremenljivka t /, n b s b s b MSE x i - x 5

Določanje intervala zaupanja b t s /, n b kjer je t s b /, n b t /, n točkovna ocena naklona kritična meja za stopnjo tveganja vrednost iz t-porazdelitve z(n ) stopinjami prostosti 6

F test Hipotezi H 0 : = 0 H a : 0 Testna spremenljivka F,,n- = MSR/MSE 7

Previdnost pri interpretaciji statistične značilnosti Zavrnitev H 0 : = 0 in sklep, da je povezava med spremenljivkama x in y značilna ne dopušča opredelitve povezave v smislu vzrok in posledica. Z zavrnitvijo H 0 : = 0 nismo dokazali, da je odnos med spremenljivkama linearen. 8

Formule L L L xx yy xy x x x i y y y i i i x i xi x yi y xi yi n x n i y i n y i SSE SST SSR L SSR L SSE L xy xx yy L L xy xx SSR MSR k SSE MSE n k MSR Fk, nk, MSE b b 0 r L L xy xx y b x L L xx xy L yy y b i n x i se b se MSE L xx b 0 MSE n L xx x 9

0

Interval zaupanja in interval napovedovanja 5000 4000 3000 000 Porodna masa 000 0 0 30 40 50 Gestacijska starost

Uporaba regresijske enačbe Interval zaupanja ˆ y t n, α/s s MSE n x x xi x Interval napovedovanja ˆ y t n, α/s s MSE n x x xi x 3

Multipli regresijski model y = 0 + x + x +... + p x p + 0,,,..., p so parametri. Standardizirani parametri (x i z i ) je napaka, ki je slučajna spremenljivka. 4

Koeficient determinacije Multipli koeficient determinacije R = SSR/SST Popravljeni multipli koeficient determinacije R a R n n p n = 0 30 na posamezen prediktor (če so prediktorji med sabo korelirani je potreben večji n) 5

Statistično sklepanje Pri enostavni linearni regresiji nas F in t test vodita k istim sklepom. V multipli regresiji uporabimo F in t test za različna namena. 6

F test Pomembnost modela kot celote. Test for overall significance. 7

t test Če je izid F testa za model kot celota značilen, uporabimo t teste za ugotavljanje značilnosti vplivov posameznih neodvisnih spremenljivk. Za vsako neodvisno spremenljivko izvedemo en t test. Vsak t test imenujemo tudi test posamične značilnosti (test for individual significance). 8

F test Hipotezi H 0 : = =... = p = 0 H a : Najmanj eden izmed parametrov ni enak 0 Testna spremenljivka F = MSR/MSE Zavrnitev ničelne hipoteze Zavrni H 0 če F > F kjer je F odklon v F porazdelitvi s p stopinjami prostosti v števcu in (n - p )stopinjami prostosti v imenovalcu ulomka. 9

t test Hipotezi H 0 : i = 0 H a : i 0 Testna spremenljivka t b s i bi Zavrnitev ničelne hipoteze Zavrni H 0, če t > t kjer je t odklon v t porazdelitvi z n - p - stopinjami prostosti. 30

Atributivne spremenljivke Rekodiranje s slepimi spremenljivkami k nivojev osnovne atributivne spremenljivke nadomestimo s (k-) slepimi spremenljivkami 3

Primer: Vpliv kajenja na pljučno funkcijo Z raziskavo želimo opredeliti vpliv kajenja na pljučno funkcijo. Naključno smo izbrali 000 ljudi obeh spolov in spremljali pljučno funkcijo (parameter FEV), poleg tega smo beležili še njihovo starost in telesno višino. Za analizo rezultatov raziskave smo uporabili metodo multiple regresije. Neodvisne spremenljivke v analizi so bile: starost [leta] telesna višina [cm] spol (0 = ženski, = moški) kajenje (0 = nekadilec, = kadilec) Odvisna spremenljivka pa je bila FEV [liter]. 3

Model Model Summary Adjusted Std. Error of R R Square R Square the Estimate.497 a.47.43.569 a. Predictors: (Constant), kajenje, t. višina (cm), starost (leta), spol Model Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 0.786 4 5.96 8.383.000 a 63.533 995.064 84.39 999 a. Predictors: (Constant), kajenje, t. višina (cm), starost (leta), spol b. Dependent Variable: FEV (l) Model (Constant) starost (leta) t. višina (cm) spol kajenje a. Dependent Variable: FEV (l) Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig..666.8.568.000 -.9E-03.00 -.063 -.96.0-5.6E-04.00 -.04 -.844.399.9.07.376 3.08.000 -.75.03 -.37 -.857.000 y = b 0 + b starost + b višina + b 3 spol + b 4 kajenje 33

Primer: Pravastatin Randomizirana klinična raziskava Paralelni načrt (placebo, n=434 in pravastatin, n=438) Meritev LDL pred zdravljenjem in leti po začetku zdravljenja Primarni izid je znižanje vrednosti LDL Jukema JW, Bruschke AV, van Boven AJ, Reiber JH, Bal ET, Zwinderman AH, et al. Effects of lipid lowering by pravastatin on progression and regression of coronary artery disease in symptomatic men with normal to moderately elevated serum cholesterol levels. The Regression Growth Evaluation Statin Study (REGRESS). Circulation 995;9:58-40. 34

Rezultati Placebo: LDL=-0.04±0.59 mmol/l Pravastatin: LDL=.3±0.68 mmol/l =.3-(-0.04)=.7 mmol/l se 0.68 / 438 0.59 / 434 0.043 mmol / L 35

Baseline LDL-cholesterol (mmol/l) 36 LDL-cholesterol decrease (mmol/l)

37

y=b 0 +b x +b x x = (pravastatin), x =0 (placebo) x =baseline Placebo y=b 0 +b x Pravastatin y=b 0 +b +b x.7 b =.7±0.037 Izboljšana natančnost se: 0.043 0.037 38

b=0.36 (se=0.06; p<0.000) 39

Tveganje, obeti ter razmerja Relativno tveganje ang. Relative Risk RR p p Razmerje obetov ang. Odds Ratio p p p p Povezava med razmerjem obetov ter relativnim tveganjem: p p p p p p p p RR p p 40

Preprosta logistična regresija Opazovani pojav= binarna spremenljivka 0/ Kako uporabiti linearni model za opisovanje odnosa? 4

Preprosta logistična regresija Vrednost binarne spremenljivke zapisati kot: Verjetnost, da zavzame vrednost pri danem X: π (x)- populacija p(x)- vzorec Zavzame le vrednosti med 0 in - preozek razpon Razmerje verjetnosti, da dogodek zgodi in da se ne zgodi: p( x) p( x) Zavzame vrednosti med 0 in + neskončnostjo 4

Preprosta logistična regresija Logaritmiranje=> med in + neskončnostjo Populacija: ( x) ln x ( ) logit[ p( x)] p( x) ln p( x) x logit Ocena parametrov iz vzorca: p( x) ln p x ( ) a bx p( x) e abx e abx Verjetnost, da dogodek zgodil pri danem X 43

Pomen regresijskega koef. b Lin. regresija: b y y ( x) ( x) p( x) ln a bx logit p( x) Log. regresija: Binarni X (0/) => x=0, x+=. Obet da bo y=: Logaritmiranje: b O x log it logit x p() p() ( x) log p() ln p() O x 0 it ( x) p(0) p(0) logit x 0 p(0) ln p(0) 44

45 Pomen regresijskega koef. b Log. razmerja obetov: (0) ) ( log log ln it it b RO (0) (0) 0 p p O x () () p p O x (0) (0) () () 0 p p p p O O RO x x (0) log () log (0) (0) () () ln ln it it p p p p RO b RO e

Ocenjevanje b v vzorcu p(x)? =>b in a? ln p( x) a bx logit p( x) Lin. regresija: metoda najmanjših kvadratov ostankov. Log. regresija: metoda največjega verjetja (maximum likelihood method). Funkcija največjega verjetja Oz. logaritem funkcije verjetja ( log likelihood ): Nelinearna funkcija parametrov modela a in b. Iteracijska metoda, več ocen parametrov. Nove ocene, dokler še zveča funkcijo največjega verjetja. Lokalna/globalna točka največjega verjetja. Start? 46

Ocenjevanje b v populaciji Vzorčna porazdelitev b- ja: normalna porazdelitev = > interval zaupanja: b z * SE( b) Vzorčna ocena razmerja obetov: nenormalna, nesimetrična porazdelitev Interval zaupanja za RO iz b (spodnjo/zgornjo mejo): e b z* SE b 47

48 Multipla logistična regresija Matematični model: b(k): sprememba v logitu, ki spremlja spremembo X(k) za enoto, medtem ko se ostale sprem. ne spreminjajo. Regresijski koef. b = logaritem razmerja obetov Razmerje obetov= antilogaritem b: Metoda največjega verjetja k k k k x b x b x b a x b x b x b a e e x p...... ) ( b e

Testiranje pomembnosti modela kot celote Ali se log verjetja modela s spremenljivkami X statistično značilno poveča v primerjavi z log verjetja modela brez njih. G- statistika- test razmerja dveh verjetij: G verjetje ln verjetje SPREM. X Porazdeljuje po hi- kvadrat, df: k k: št. vseh spremenljivk v modelu V SPSS-u: Omnibus test 0 49

Vrednotenje prileganja modela Nagelkerkejev R^ Test hi- kvadrat Hosmer- Lemeshov test: Oba primerjata opazovano število enot, pri katerem se je opazovani dogodek zgodil, s pričakovanim številom, ki temelji na enačbi logistične regresije. 50

Testiranje pomembnosti b Ho: b=0, Ha: b 0 Testi: Z: b 0 z SE b Waldova statistika: b SE b G- statistika: G verjetje ln verjetje x 0 G- statistika: Model, ki vključuje uje X, pove več o Y. 5