Introduction to Logistic Regression

Size: px

Start display at page:

Download "Introduction to Logistic Regression"

Edward Bryan
5 years ago
Views:

1 Introduction to Logistic Regression

2 Problem & Data Overview Primary Research Questions: 1. What are the risk factors associated with CHD? Regression Questions: 1. What is Y? 2. What is X? Did player develop CHD? Health info

3 Exporatory Data Analysis 1. Side-by-side boxplots Age no yes CHD

4 Exporatory Data Analysis 2. Scatterplot (Yes=1, No = 0) CHD CHD Age Age

5 Exporatory Data Analysis 3. Scatterplot w/smooth curve CHD Age

6 <latexit sha1_base64="ouldixfcnvh0cecexa9j3mzvbtw=">aaafmhicbzrnb9mwgmezjcaobx0cuvhuvjyq2m1le5veay5dudapqsrhdbtoevpiifvrvxixvgnisgmgrnwkbnduy2zldpzf8/bpeydxmsy1c92bo2pbuxf/wcndzqpht /1wxtuxohbrpuv3gukzpktmjs1hkl8uk4ixo6uv8/vbyl77qqk6k/bnbl3sw4vwelbocgufzu/tdfnnvkrcmx02kq01b8bhpabbdizwd0ad5wzc1rfn6sclafig92euqhwid/gydebkdsudn668bhkymhgpfeokeyrbaz+f7zupfasmfqfisppv2vlh3iqfrl4muquebr0qkskc7ghhibl0dovelwqikjfakxxypinvskbfq1hboheaccoj2ig1ckq2uxcc0o+ki8fegonslfrsivd+x5e04bchoredkfb8ncxmvqy8vcxgwbkzt10du3xi4on524b1veprnvuiumgz9/p379y31ws/enzvm+id1zdkrehnqe70ublnvhaht77ec0xu+9m3u25a1cochcd1aznqxe+736pfgvpmpozkuk6nkk3zlmwvywhkd10oqamjsbxeewnfjvnazvn7xg/cakwvyfhwfoqoshka0okvrdrzzzwyzq/q2tuctbdqw5wwjnnzmjqtbaflkwjwaph7aiukoosla77bpeq4vkcuciuj4z+zdm8cvp3idzctnbgp4afuo0oqgyfws+uv9cacvmidwe+tc2tiefur/cp+af9yvk3zm/nz9b1+efvld+g87ffxbnkqw=</latexit> <latexit sha1_base64="ouldixfcnvh0cecexa9j3mzvbtw=">aaafmhicbzrnb9mwgmezjcaobx0cuvhuvjyq2m1le5veay5dudapqsrhdbtoevpiifvrvxixvgnisgmgrnwkbnduy2zldpzf8/bpeydxmsy1c92bo2pbuxf/wcndzqpht /1wxtuxohbrpuv3gukzpktmjs1hkl8uk4ixo6uv8/vbyl77qqk6k/bnbl3sw4vwelbocgufzu/tdfnnvkrcmx02kq01b8bhpabbdizwd0ad5wzc1rfn6sclafig92euqhwid/gydebkdsudn668bhkymhgpfeokeyrbaz+f7zupfasmfqfisppv2vlh3iqfrl4muquebr0qkskc7ghhibl0dovelwqikjfakxxypinvskbfq1hboheaccoj2ig1ckq2uxcc0o+ki8fegonslfrsivd+x5e04bchoredkfb8ncxmvqy8vcxgwbkzt10du3xi4on524b1veprnvuiumgz9/p379y31ws/enzvm+id1zdkrehnqe70ublnvhaht77ec0xu+9m3u25a1cochcd1aznqxe+736pfgvpmpozkuk6nkk3zlmwvywhkd10oqamjsbxeewnfjvnazvn7xg/cakwvyfhwfoqoshka0okvrdrzzzwyzq/q2tuctbdqw5wwjnnzmjqtbaflkwjwaph7aiukoosla77bpeq4vkcuciuj4z+zdm8cvp3idzctnbgp4afuo0oqgyfws+uv9cacvmidwe+tc2tiefur/cp+af9yvk3zm/nz9b1+efvld+g87ffxbnkqw=</latexit> <latexit sha1_base64="ouldixfcnvh0cecexa9j3mzvbtw=">aaafmhicbzrnb9mwgmezjcaobx0cuvhuvjyq2m1le5veay5dudapqsrhdbtoevpiifvrvxixvgnisgmgrnwkbnduy2zldpzf8/bpeydxmsy1c92bo2pbuxf/wcndzqpht /1wxtuxohbrpuv3gukzpktmjs1hkl8uk4ixo6uv8/vbyl77qqk6k/bnbl3sw4vwelbocgufzu/tdfnnvkrcmx02kq01b8bhpabbdizwd0ad5wzc1rfn6sclafig92euqhwid/gydebkdsudn668bhkymhgpfeokeyrbaz+f7zupfasmfqfisppv2vlh3iqfrl4muquebr0qkskc7ghhibl0dovelwqikjfakxxypinvskbfq1hboheaccoj2ig1ckq2uxcc0o+ki8fegonslfrsivd+x5e04bchoredkfb8ncxmvqy8vcxgwbkzt10du3xi4on524b1veprnvuiumgz9/p379y31ws/enzvm+id1zdkrehnqe70ublnvhaht77ec0xu+9m3u25a1cochcd1aznqxe+736pfgvpmpozkuk6nkk3zlmwvywhkd10oqamjsbxeewnfjvnazvn7xg/cakwvyfhwfoqoshka0okvrdrzzzwyzq/q2tuctbdqw5wwjnnzmjqtbaflkwjwaph7aiukoosla77bpeq4vkcuciuj4z+zdm8cvp3idzctnbgp4afuo0oqgyfws+uv9cacvmidwe+tc2tiefur/cp+af9yvk3zm/nz9b1+efvld+g87ffxbnkqw=</latexit> <latexit sha1_base64="ouldixfcnvh0cecexa9j3mzvbtw=">aaafmhicbzrnb9mwgmezjcaobx0cuvhuvjyq2m1le5veay5dudapqsrhdbtoevpiifvrvxixvgnisgmgrnwkbnduy2zldpzf8/bpeydxmsy1c92bo2pbuxf/wcndzqpht /1wxtuxohbrpuv3gukzpktmjs1hkl8uk4ixo6uv8/vbyl77qqk6k/bnbl3sw4vwelbocgufzu/tdfnnvkrcmx02kq01b8bhpabbdizwd0ad5wzc1rfn6sclafig92euqhwid/gydebkdsudn668bhkymhgpfeokeyrbaz+f7zupfasmfqfisppv2vlh3iqfrl4muquebr0qkskc7ghhibl0dovelwqikjfakxxypinvskbfq1hboheaccoj2ig1ckq2uxcc0o+ki8fegonslfrsivd+x5e04bchoredkfb8ncxmvqy8vcxgwbkzt10du3xi4on524b1veprnvuiumgz9/p379y31ws/enzvm+id1zdkrehnqe70ublnvhaht77ec0xu+9m3u25a1cochcd1aznqxe+736pfgvpmpozkuk6nkk3zlmwvywhkd10oqamjsbxeewnfjvnazvn7xg/cakwvyfhwfoqoshka0okvrdrzzzwyzq/q2tuctbdqw5wwjnnzmjqtbaflkwjwaph7aiukoosla77bpeq4vkcuciuj4z+zdm8cvp3idzctnbgp4afuo0oqgyfws+uv9cacvmidwe+tc2tiefur/cp+af9yvk3zm/nz9b1+efvld+g87ffxbnkqw=</latexit> Exporatory Data Analysis 4. Cross-tabulations Cigs CHD no yes Sum Sum

7 <latexit sha1_base64="atsyvyxeazdgxpdhc9gq4ua2sc=">aaacnhicbvdjsgnbeo1xn25r14ag+ipzii4haqhhnlwogbcyitq06ljmvt0dn01ahyu178d0968kdi1w+wewdccxoe79wr6npbiovb1310rkbhxicmp6ylm7nz8wvfxauze6eaq43hmtyxatmghyiacprwkwhgusdhpohwbvr5fwgynwkvqqaewsreqro0fln4tflu9d1feoh0byq43au6voprlmf4qyzkkjaqr72qe8x3c82xg7oa2ggx/bbtxjfs1hyy+6w6f/g5abe8pufu/9vsztcbryyyype26cyxpffwozqcgesa7ra11cxwlwdsy4dv9umazfg1bz9coms/oziwgdolatszmeyy39qa/e+rpxunkhkhrb8c9fysopxnqqiw0jdrxlzwlgtbb/pbzdnonogy7yelzfj/8ftc3yxtk72sodbodptjevsko2ied2yagpkmnsi5zckgfytf6co+fjexxeplthnnyzth6u8/4b/4ypda==</latexit> <latexit sha1_base64="atsyvyxeazdgxpdhc9gq4ua2sc=">aaacnhicbvdjsgnbeo1xn25r14ag+ipzii4haqhhnlwogbcyitq06ljmvt0dn01ahyu178d0968kdi1w+wewdccxoe79wr6npbiovb1310rkbhxicmp6ylm7nz8wvfxauze6eaq43hmtyxatmghyiacprwkwhgusdhpohwbvr5fwgynwkvqqaewsreqro0fln4tflu9d1feoh0byq43au6voprlmf4qyzkkjaqr72qe8x3c82xg7oa2ggx/bbtxjfs1hyy+6w6f/g5abe8pufu/9vsztcbryyyype26cyxpffwozqcgesa7ra11cxwlwdsy4dv9umazfg1bz9coms/oziwgdolatszmeyy39qa/e+rpxunkhkhrb8c9fysopxnqqiw0jdrxlzwlgtbb/pbzdnonogy7yelzfj/8ftc3yxtk72sodbodptjevsko2ied2yagpkmnsi5zckgfytf6co+fjexxeplthnnyzth6u8/4b/4ypda==</latexit> <latexit sha1_base64="atsyvyxeazdgxpdhc9gq4ua2sc=">aaacnhicbvdjsgnbeo1xn25r14ag+ipzii4haqhhnlwogbcyitq06ljmvt0dn01ahyu178d0968kdi1w+wewdccxoe79wr6npbiovb1310rkbhxicmp6ylm7nz8wvfxauze6eaq43hmtyxatmghyiacprwkwhgusdhpohwbvr5fwgynwkvqqaewsreqro0fln4tflu9d1feoh0byq43au6voprlmf4qyzkkjaqr72qe8x3c82xg7oa2ggx/bbtxjfs1hyy+6w6f/g5abe8pufu/9vsztcbryyyype26cyxpffwozqcgesa7ra11cxwlwdsy4dv9umazfg1bz9coms/oziwgdolatszmeyy39qa/e+rpxunkhkhrb8c9fysopxnqqiw0jdrxlzwlgtbb/pbzdnonogy7yelzfj/8ftc3yxtk72sodbodptjevsko2ied2yagpkmnsi5zckgfytf6co+fjexxeplthnnyzth6u8/4b/4ypda==</latexit> <latexit sha1_base64="atsyvyxeazdgxpdhc9gq4ua2sc=">aaacnhicbvdjsgnbeo1xn25r14ag+ipzii4haqhhnlwogbcyitq06ljmvt0dn01ahyu178d0968kdi1w+wewdccxoe79wr6npbiovb1310rkbhxicmp6ylm7nz8wvfxauze6eaq43hmtyxatmghyiacprwkwhgusdhpohwbvr5fwgynwkvqqaewsreqro0fln4tflu9d1feoh0byq43au6voprlmf4qyzkkjaqr72qe8x3c82xg7oa2ggx/bbtxjfs1hyy+6w6f/g5abe8pufu/9vsztcbryyyype26cyxpffwozqcgesa7ra11cxwlwdsy4dv9umazfg1bz9coms/oziwgdolatszmeyy39qa/e+rpxunkhkhrb8c9fysopxnqqiw0jdrxlzwlgtbb/pbzdnonogy7yelzfj/8ftc3yxtk72sodbodptjevsko2ied2yagpkmnsi5zckgfytf6co+fjexxeplthnnyzth6u8/4b/4ypda==</latexit> Can we use linear regression? Our response is a categorical variables so can we ust use indicator variables and set, Y i = ( 1 if CHD 0 otherwise then use regular least squares multiple regression? No, because 1. predictions will be outside of {0,1} 2. linear assumption might be violated 3. errors certainly won t be normal 4. equal variance is also likely to be violated. We need an entirely new regression framework!

8 Logistic regression Going back to Day 1, we have the following generic framework for statistical modeling: Y i iid p Y (y i ) E(y i )=f(x i1,...,x ip ) E.g, for simple and multiple linear regression modeling we! had: Y i iid N 0 + E(y i )= 0 + p=1 p=1 x ip x ip p, Where the normal assumption was OK because Y was quantitative p 2

9 Logistic regression What s an appropriate distribution when Y i 2 {0, 1}? Bernoulli Distribution: f(y i )=p y i (1 p) 1 y i If our response follows a Bernoulli distribution then E(y i )=p = Prob(Y = 1) So can we ust set E(y i )=p = 0 + p=1 x ip p No because p is has to be between 0 and 1. We need to choose a different math function than we have used before (one that keeps p between 0 and 1).

10 Logistic regression Logistic Regression Model: (Generalized Linear Model) Odds Ratio log Logit Transform Y i ind Bern(p i ) JX = 0 + x i ) p i = exp{ 0 + P J x i } 1 + exp{ 0 + P J x i } Logistic Function 2 (0, 1)

11 Logistic Regression Model: log = 0 + How do we interpret? 1. For every unit increase in x, the log-odds ratio increases by. 2. Just interpret the sign: If > 0, then p i increases as x increases. 3. As x increases by 1, a patient is exp{ } times more likely to have CHD. 4. As x increases by 1, a pateint is more likely to have CHD. JX x i 100 (exp{ } 1)%

12 Logistic Regression Model: Bern(p i ) log = 0 + y i ind x i How do we estimate the s? We use maximum likelihood (see Stat 340) In this class, we ll let R do it for us.

13 <latexit sha1_base64="jxt0eolpdrtt+nssdkr3uxvnt0=">aaacchicbvc7sgnbfl3r2/ikphkbqrgswq5f1eii2fhgcfxiha7uumgzd6yusugzvsb/8evslfqsfut7pwbj4mfrwpdhm65l3vvcvmldbnuhzm1ptm7n7+wwfpaxlldk69vxjgk0wj9kahex4xcojix+irj4vwqkuehwstwcdlyl69rg5ne5zrmsrxxxiy7uncyurvmg6npairenhoa8ibynkpi4idm7fq1g7a5r378h+eu+l7nq37yt1agi0y+9bjxfzhdejxy1pem5krzxrkkjhuqoygykxazulawnmizstfhxjwxat0mhdrnsxexur3ztyhhkzejbgxhqm9/espzpa2bupwzlmk4zwlhmbnuzxshho1hyr2oupiawckgl3zwjptdcka2vzepwfp/8l/71aoqd2bdqmeec7af27ahhhxahu6hat4iuiuheijn5855df6c10nplppvu4efcn4+aauumpc=</latexit> <latexit sha1_base64="v9bxfbvndtj1hmvfhpdeu/sroa=">aaacchicbvdjsgnbeo1xxgl5iregomgcghgg8tbchxgmexgcww9hqqprfnobtgdmncvfgpfoexdype/qrvfow/ygc5ud1o+vfefvx1wlqkbb9yu1nz8zozzcwyotlyyurlbx1c51kiople5modsg0sbgdiwiltfmflaoltmkrk6hfugalrrkf4yafp2kxsegjztbiqyv6fya5fwkyisg9hbvm2suubt2mdt3epwgqnfopqp8sz0jqy376q77sztb5d3rjylieyumdydx07rz5lcwsuuzs/tkdj+zaz0di1zbnrpr5cudnsoxdpllhkx0ph6vsnnkdadkdsveco+/u0nxf+8toa9qz8xczohxhw8qjdjigkdxkk7qgfhotcecsxmrpt3mwictxhle4lz++s/xn2rh9wdmxpgphmrdbjftkhdkgdxjkmsqlnnysb/jenq0769f6sv7hpvpwpkdkfsb6+wjkpvm</latexit> <latexit sha1_base64="v9bxfbvndtj1hmvfhpdeu/sroa=">aaacchicbvdjsgnbeo1xxgl5iregomgcghgg8tbchxgmexgcww9hqqprfnobtgdmncvfgpfoexdype/qrvfow/ygc5ud1o+vfefvx1wlqkbb9yu1nz8zozzcwyotlyyurlbx1c51kiople5modsg0sbgdiwiltfmflaoltmkrk6hfugalrrkf4yafp2kxsegjztbiqyv6fya5fwkyisg9hbvm2suubt2mdt3epwgqnfopqp8sz0jqy376q77sztb5d3rjylieyumdydx07rz5lcwsuuzs/tkdj+zaz0di1zbnrpr5cudnsoxdpllhkx0ph6vsnnkdadkdsveco+/u0nxf+8toa9qz8xczohxhw8qjdjigkdxkk7qgfhotcecsxmrpt3mwictxhle4lz++s/xn2rh9wdmxpgphmrdbjftkhdkgdxjkmsqlnnysb/jenq0769f6sv7hpvpwpkdkfsb6+wjkpvm</latexit> <latexit sha1_base64="qbya1ibvpqu5gwhunvhs1n9bh8=">aaacchicbva9swnben2lxzf+rs1tfongfe4sei2egi1lbgmcuspsbsbjkr0pdufecfxr41+xsvcx9sfy+w/cjfdo4onlh+/nmdpp6xqanvfvmfldw19o7hz2tre2d0r7x/c6shrhfo8kphq+eydfcg0ukcetqyabb6et++mvrte1baroettmlwaymxubwhkbqlak7y6pidleqml8iapg0kw0utqv+1avveumh8gukycnfrimav/ox2i54eeckxtouuy8fopuyh4bkykptoibkfmyldq0mwgpbs2suzptfknw4izv6idkb+7khzopuk8e1lwhckf72p+j/xtxbw7quiboekm8hdrjjmaltwghfkoaoj4ywrotzlfiru4yca9kqnawt14mrbpqrdw5ssunwp5gkryry3jkhfindxjnmqrfohkkz+svvflp1ov1bn3mswtw3nni/sd6/ahoujln</latexit> Logistic Regression Logistic Regression Model: Bern(p i ) log = 0 + y i ind Example: - ˆage = How do we interpret this number? x i 1. As age increases by 1 then the log(odds) goes up by As age increases by 1 then the likelihood of having CHD goes up by 100*(e ) 6.91%.

14 Logistic Regression Model: Bern(p i ) log = 0 + y i ind x i What assumptions are we making? Linear in log-odds (monotone in probability) Scatterplot w/smoother

15 What assumptions are we making? Linear in log-odds (monotone in probability) Scatterplot w/smoother CHD Age

16 Logistic Regression Model: Bern(p i ) log = 0 + y i ind x i What assumptions are we making? Linear in log-odds (monotone in probability) Check using scatterplot w/smoother Independence Normality Equal Variance

17 Logistic Regression Model: Bern(p i ) log = 0 + y i ind x i How can we perform variable selection? Same way as before - compare AIC or BIC.

18 Logistic Regression Model: Bern(p i ) log = 0 + y i ind How do we build confidence intervals (or perform hypothesis tests) for our effects? ˆ N(0, 1) SE( ˆ) ˆ ± z? SE( ˆ) x i

19 <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> Logistic Regression Logistic Regression Model: Bern(p i ) log = 0 + y i ind How do we build confidence intervals (or perform hypothesis tests) for our effects? - 95% CI for age is (0.037, 0.097). - How do we interpret this interval? 1. We are 95% confident that as age increases by 1 the log(odds) of CHD goes up by between and x i

20 <latexit sha1_base64="erwrep1chsy6esb8sicwix8g6a8=">aaacg3icbvdlsgmxfm34rpu16tjnsbsmuidmk9yuhiiblxwslxsgkkntntzimmizeihupfx3lhqcsw48g9mhwttpzbwoode7r3hzmtcqfvy2v1bx1m7ov3d7z3ds3dw7vzjqiqhsk4pfo+vhszklauexx2oofxyhpadmfxk3850vkkxhrrrf1atwp2q9rrdsuscsowi5igvuwi59in3uqyqv4r6r1yk7vukcblajxtipsvosguuflcx8xpewq4tjw5yye56h3z0+1gjaloqahurydfcsvxuixwuk46yasxpgmcz+2nq2xxsdlp8enyv4rxdilhh6hglp1d0ekaylhga8ra6wgctgbip957ut1lryuhxgiaehmg3ojhyqck6rglwlkfb9pgolgeldiblhgonsewr2cs3ymmmu7krt3jzlaufzndlggjwaczigamrggtrbaxdwcj7bk3gznowx4934mjwugpoei/ahxtcpm4cbua==</latexit> <latexit sha1_base64="erwrep1chsy6esb8sicwix8g6a8=">aaacg3icbvdlsgmxfm34rpu16tjnsbsmuidmk9yuhiiblxwslxsgkkntntzimmizeihupfx3lhqcsw48g9mhwttpzbwoode7r3hzmtcqfvy2v1bx1m7ov3d7z3ds3dw7vzjqiqhsk4pfo+vhszklauexx2oofxyhpadmfxk3850vkkxhrrrf1atwp2q9rrdsuscsowi5igvuwi59in3uqyqv4r6r1yk7vukcblajxtipsvosguuflcx8xpewq4tjw5yye56h3z0+1gjaloqahurydfcsvxuixwuk46yasxpgmcz+2nq2xxsdlp8enyv4rxdilhh6hglp1d0ekaylhga8ra6wgctgbip957ut1lryuhxgiaehmg3ojhyqck6rglwlkfb9pgolgeldiblhgonsewr2cs3ymmmu7krt3jzlaufzndlggjwaczigamrggtrbaxdwcj7bk3gznowx4934mjwugpoei/ahxtcpm4cbua==</latexit> <latexit sha1_base64="erwrep1chsy6esb8sicwix8g6a8=">aaacg3icbvdlsgmxfm34rpu16tjnsbsmuidmk9yuhiiblxwslxsgkkntntzimmizeihupfx3lhqcsw48g9mhwttpzbwoode7r3hzmtcqfvy2v1bx1m7ov3d7z3ds3dw7vzjqiqhsk4pfo+vhszklauexx2oofxyhpadmfxk3850vkkxhrrrf1atwp2q9rrdsuscsowi5igvuwi59in3uqyqv4r6r1yk7vukcblajxtipsvosguuflcx8xpewq4tjw5yye56h3z0+1gjaloqahurydfcsvxuixwuk46yasxpgmcz+2nq2xxsdlp8enyv4rxdilhh6hglp1d0ekaylhga8ra6wgctgbip957ut1lryuhxgiaehmg3ojhyqck6rglwlkfb9pgolgeldiblhgonsewr2cs3ymmmu7krt3jzlaufzndlggjwaczigamrggtrbaxdwcj7bk3gznowx4934mjwugpoei/ahxtcpm4cbua==</latexit> <latexit sha1_base64="erwrep1chsy6esb8sicwix8g6a8=">aaacg3icbvdlsgmxfm34rpu16tjnsbsmuidmk9yuhiiblxwslxsgkkntntzimmizeihupfx3lhqcsw48g9mhwttpzbwoode7r3hzmtcqfvy2v1bx1m7ov3d7z3ds3dw7vzjqiqhsk4pfo+vhszklauexx2oofxyhpadmfxk3850vkkxhrrrf1atwp2q9rrdsuscsowi5igvuwi59in3uqyqv4r6r1yk7vukcblajxtipsvosguuflcx8xpewq4tjw5yye56h3z0+1gjaloqahurydfcsvxuixwuk46yasxpgmcz+2nq2xxsdlp8enyv4rxdilhh6hglp1d0ekaylhga8ra6wgctgbip957ut1lryuhxgiaehmg3ojhyqck6rglwlkfb9pgolgeldiblhgonsewr2cs3ymmmu7krt3jzlaufzndlggjwaczigamrggtrbaxdwcj7bk3gznowx4934mjwugpoei/ahxtcpm4cbua==</latexit> <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> <latexit sha1_base64="qkiosvyik2brcvw3l9pnt+s/xic=">aaab+nicbvdlssnafj3uv62vwpdugkvwvrirh7ucg5cvc00iuymn+3qyyozg2kj+ru3lltc+ixu/bunbrbaeudc4zx7z+49qsq4qsv6nipr6xubw9xt2s7u3v5b/bdxqjjmmnbyihlzc6gcwwnwkkoaxiqbrogabc+nfndj5ckj/edtlpwiqmecgzrs359yybafi/dxemmnmhfivfb1otaw5zldglazishb/+5q4slkuqixnuqb5tpelvcjnaoqamylikrvr1/uaxqc5exz3qvzvcsdm0ykrhnufp7iqerutmo0j0rxzfa9mbif14/w/day3mczggxw3wuzslexjwfyq64biziqgllkutdttaiklucdv0cpbyyaveow/dtoz7i2b7skyso7jctknrkibxjhosqhezim3klb0zhvbvxseitwkum0fkd4zphz0mllw=</latexit> Logistic Regression Logistic Regression Model: Bern(p i ) log = 0 + y i ind x i How do we build confidence intervals (or perform hypothesis tests) for our effects? - 95% CI for age is (0.037, 0.097). - How do we interpret this interval? 2. We are 95% confident that as age increases by 1 the likelihood of CHD increases between 100 (exp{(0.037, 0.097)} 1) = (3.7%, 10.2%)

21 Logistic Regression Model: Bern(p i ) log = 0 + y i ind How do we predict? Predict probabilities ˆp = n exp ˆ0 + P P 1 + exp x i p=1 x ip ˆp o n ˆ0 + P P p=1 x ip ˆp o

22 Logistic Regression Model: Bern(p i ) log = 0 + y i ind Many times we want to classify so we set: where ŷ = ( 1 if ˆp>c 0 if ˆp apple c x i c = Cuto Probability

23 <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> Logistic Regression Using a cutoff value, we can produce a confusion matrix: Predicted Yes Predicted No True Yes True No Sensitivity: Percent of True Positives (99/(99+158)) Specificity: Percent of True Negatives (446/(446+54)) Positive Predictive Value: % Correctly Predicted Yes s (99/(99+54)) Negative Predictive Value: % Correctly Predicted No s (446/( ))

So, how what do we use for the cutoff value? It Depends! Error Rate 0.0 0.2 0.4 0.

24 So, how what do we use for the cutoff value? It Depends! Error Rate Overall Error False Negative Rate False Positive Rate Threshold

25 Logistic Regression Model: Bern(p i ) log = 0 + y i ind So, how do we choose the cutoff value? 1. c =0.5! Bayes Classifier 2. Choose c to minimize the misclassification rate 1 n nx I(y i 6=ŷ i ) = Percent Misclassified i=1 x i sensitivity, specificity, positive predicted value or negative predicted value based on cost-benefit analysis.

26 Misclassification Cutoff

27 <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> <latexit sha1_base64="k0+09d3ps5xyimyxnwvmgsoobaw=">aaacaxicbvdlsgmxfm2mrzq+aguv3qsl4qrmsnv2v3dsipyh3rkywru22ammyqzoyxd+ivu/ai3forpo2h93jbwcs653oqecwdku+6bzc/nlywufzadldw19y3izulwxamk0kix+v9qbrwjqclmezwn0ggucdhlni8got3tyavi8wnhibqiuhfsb6rbuqw3zxa+gzkwkspjziucafqvk5wg3jysmagxayg8e7+kse87/ma8fn/ifhjhvw4o77rmxalrfef4tgqoavxsu8xxqyrfe7vfsltxj4x/ai8hzzrxs1t89coypheittlrqu25ie5krgpgoywcp1wqeppi+ta2ujaivcebrdxch4yjcs+wzgunj+xsr0yipyzryjwr0qp1wxut/2ntvpdqnyyjjnug6hrql+vyx3icow6zbkr50abcjtnvxxrajdgbsuwyelzfx/4lwievesw7pik3zvi0cmgfhab5kfz1ecxqilaikj3a83atnasd7tk79p7u6tt5t1b6efz5u9/ursl</latexit> Logistic Regression Logistic Regression Model: Bern(p i ) log = 0 + y i ind How can we tell how well our model fits? In sample confusion matrix: report sensitivity, specificity, etc. for a single cutoff. x i Predicted Yes Predicted No True Yes True No

28 Thought Question: Classification are built on a cut-off. So how well do we do across all cut-offs? ROC (Receiver Operating Characteristic) Curves: For many cut-off values compare the sensitivity to the false positive rate (1-specificity)

29 Thought Question: Classification are built on a cut-off. So how well do we do across all cut-offs? ROC (Receiver Operating Characteristic) Curves: Sensitivity Coin Flip Rate 1 Specificity Summarize an ROC curve by the area under the curve (AUC):

30 Logistic Regression Model: Bern(p i ) log = 0 + y i ind How can we tell how well our model fits? Report the AUC (area under ROC curve) which says how well we classify across all thresholds. x i

31 Logistic Regression Model: Bern(p i ) log = 0 + y i ind How can we tell how well our model fits? Pseudo -R 2 R 2 pseudo =1 Whats Left Over After Model Total Variation x i =1 Residual Deviance Null Deviance Interpretation: Percent of variation in log(p/(1-p)) explained by modeling. Warning: Low R2 values are the norm even if you classify well (upper bound in practice isn t 1).

32 Logistic Regression Model: Bern(p i ) log = 0 + y i ind How can we tell how well our model predicts? Cross validated confusion matrix: Split into test and training sets then report cross validated sensitivity, specificity, positive predicted value, negative predicted value or AUC. x i

33 End of CHD Analysis (see webpage for R code)

Introduction to Logistic Regression

Misclassification 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.0 0.2 0.4 0.6 0.8 1.0 Cutoff Introduction to Logistic Regression Problem & Data Overview Primary Research Questions: 1. What skills are important