Inštitut za matematiko, fiziko in mehaniko Seminar DMFA Slovenije Zgledi uporabe statistike na različnih strokovnih področjih Bayesov pristop v statistiki Aleš Toman ales.toman@imfm.si Pedagoška fakulteta, Ljubljana, 28. januar 2012
Obstajajo 4 vrste laži 1. Laži 2. Velike laži 3. Statistika 4. Bayesova statistika
Obstajajo 4 vrste laži 1. Laži 2. Velike laži 3. Statistika 4. Bayesova statistika Načrt predavanja Ocenjevanje parametrov v Bayesovi statistiki Analiza primera Napovedovanje v Bayesovi statistiki Ali pa...
Na kaj boste stavili: na cifro ali na Trubarja?
Na kaj boste stavili: na cifro ali na Trubarja? Ali je evrski kovanec pošten? Izvedemo poskus (met kovanca), možna sta dva izida oziroma dogodka: dogodek dogodek pade cifra, pade Trubar.
Verjetnosti naštetih dogodkov: ( ) ( ) ( ), ( ). Za sprejem odločitve potrebujemo vrednost parametra. Statistika
Verjetnosti naštetih dogodkov: ( ) ( ) ( ), ( ). Za sprejem odločitve potrebujemo vrednost parametra. Statistika Recimo, da kovanec vržemo 10-krat in da je cifra padla 7-krat. Kaj lahko povemo o? Kakšne so naše možnosti za pravilno napoved v 11. metu? frekventistična statistika Bayesova statistika
Zgodovinski pregled (Bayesove) statistike Pastor Thomas Bayes (1701 1761, ZK). Richard Price (1723 1791, ZK) leta 1763 objavi Bayesove zapiske A problem in the doctrine of chances. Bayesova formula o pogojnih verjetnostih je ( ) ( ) ( ) ( ).
Zgodovinski pregled (Bayesove) statistike Pastor Thomas Bayes (1701 1761, ZK). Richard Price (1723 1791, ZK) leta 1763 objavi Bayesove zapiske A problem in the doctrine of chances. Bayesova formula o pogojnih verjetnostih je ( ) ( ) ( ) ( ). Konec 18. stoletja je Pierre-Simon de Laplace (1749 1827, F) (neodvisno) predstavil, kako»bayesovo«formulo uporabimo v različnih situacijah.
Šokantno: Dva raziskovalca na osnovi istih podatkov prideta do različnih zaključkov le zato, ker sta pred poskusom imela različna pričakovanja! V 30-ih letih 20. stoletja so Ronald A. Fisher (1890 1962, ZK), Egon Pearson (1895 1980, ZK) in Jerzy Neyman (1894 1981, PL, ZDA) predstavili in uveljavili frekventistično statistiko. 20. stoletje je bilo stoletje»objektivne«frekventistične statistike.
Bayesov pristop ni povsem zamrl: Harold Jeffreys (1891 1989, ZK), Bruno de Finetti (1906 1985, Avstrija, Italija), Dennis Victor Lindley (1923, ZK). Omogočal je enostavno matematično formulacijo tudi zelo zapletenih statističnih modelov, običajno pa ni bilo možno ničesar poračunati. You're wrong but even if you weren't wrong, you still can't do the computation.
Konec 20. stoletja: dostopnost zmogljivih osebnih računalnikov razvoj učinkovitih simulacijskih metod
Konec 20. stoletja: dostopnost zmogljivih osebnih računalnikov razvoj učinkovitih simulacijskih metod Bayesova statistika ponovno aktualna v teoretičnem in aplikativnem svetu.
Komu pripada 21. stoletje?
Komu pripada 21. stoletje? Bloomberg: spremljanje in analiza finančnih podatkov v realnem času
Komu pripada 21. stoletje? DNK mikromreža, mikročip: analiza DNK, genetski testi
Komu pripada 21. stoletje? Google: tehnologija vozil brez voznika
Komu pripada 21. stoletje? Nekateri pravijo, da bo 21. stoletje (zopet) stoletje Bayesove statistike. Drugi vidijo prihodnost v kombinaciji obeh pristopov.
Pogojne verjetnosti Naj bosta v istem poskusu možna dogodka in. Pogojna verjetnost ( ) dogodka glede na dogodek je verjetnost dogodka ob pogoju, da se je zgodil dogodek. Izračunamo jo po formuli ( ) ( ) ( ).
Dvofazni poskusi in Bayesova formula Bayesovo formulo pogosto povezujejo z dvofaznimi poskusi, kjer v prvi fazi nastopi natanko en iz popolnega sistema dogodkov (hipotez) in od tega, kateri se je pripetil, so odvisni pogoji drugega poskusa, v katerem opazujemo dogodek. Privzemimo, da poznamo verjetnosti vseh hipotez ( ) ( ), pogojne verjetnosti dogodka ( ) ( ) glede na posamezne hipoteze
Dvofazni poskusi in Bayesova formula Bayesovo formulo pogosto povezujejo z dvofaznimi poskusi, kjer v prvi fazi nastopi natanko en iz popolnega sistema dogodkov (hipotez) in od tega, kateri se je pripetil, so odvisni pogoji drugega poskusa, v katerem opazujemo dogodek. Privzemimo, da poznamo verjetnosti vseh hipotez ( ) ( ), pogojne verjetnosti dogodka ( ) ( ) glede na posamezne hipoteze Formula za popolno verjetnost nam pove, kako izračunamo brezpogojno verjetnost dogodka (razčlenitev po vseh možnih načinih) ( ) ( ) ( ).
Postavimo si obratno vprašanje: Če se je dogodek v drugi fazi zgodil, kolikšna je verjetnost, da se je v prvi fazi zgodila hipoteza? Bayesova formula nam pomaga zamenjati dogodke v pogojni verjetnosti. ( ) ( ) ( ) ( ). Poimenovanje verjetnosti: ( ) so apriorne verjetnosti hipotez, ( ) so aposteriorne verjetnosti hipotez.
Postavimo si obratno vprašanje: Če se je dogodek v drugi fazi zgodil, kolikšna je verjetnost, da se je v prvi fazi zgodila hipoteza? Bayesova formula nam pomaga zamenjati dogodke v pogojni verjetnosti. ( ) ( ) ( ) ( ). Poimenovanje verjetnosti: ( ) so apriorne verjetnosti hipotez, ( ) so aposteriorne verjetnosti hipotez. Opazimo, da je imenovalec od neodvisen in je pri vseh hipotezah enak. Potrebujemo ga za to, da se verjetnosti ( ) vseh hipotez seštejejo v 1. ( ) ( ) ( )
Primer: Testiranje bolezni Opravili smo preventivni test za odkrivanje redke bolezni, za katero ni povsem jasno, kateri dejavniki jo spodbujajo in kateri zavirajo. Rezultat testa je pozitiven. O testu in bolezni vemo naslednje: 99% bolnih ljudi je imelo pozitiven test (true positive), 98% zdravih ljudi je imelo negativen test (true negative), bolezen prizadane 0.1% prebivalstva. Kolikšna je verjetnost, da smo resnično bolni?
Primer: Testiranje bolezni Opravili smo preventivni test za odkrivanje redke bolezni, za katero ni povsem jasno, kateri dejavniki jo spodbujajo in kateri zavirajo. Rezultat testa je pozitiven. O testu in bolezni vemo naslednje: 99% bolnih ljudi je imelo pozitiven test (true positive), 98% zdravih ljudi je imelo negativen test (true negative), bolezen prizadane 0.1% prebivalstva. Kolikšna je verjetnost, da smo resnično bolni? Iz podatkov hitro izračunamo 1% bolnih ljudi je imelo negativen test (false negative), 2% zdravih ljudi je imelo pozitiven test (false positive).
Dogodki in njihove verjetnosti oseba je zdrava, oseba je bolna, rezultat testa je pozitiven, rezultat testa je negativen. ( ), ( ), ( ), ( ), ( ), ( ).
Dogodki in njihove verjetnosti oseba je zdrava, oseba je bolna, rezultat testa je pozitiven, rezultat testa je negativen. ( ), ( ), ( ), ( ), ( ), ( ). Zanima nas ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ).
Dogodki in njihove verjetnosti oseba je zdrava, oseba je bolna, rezultat testa je pozitiven, rezultat testa je negativen. ( ), ( ), ( ), ( ), ( ), ( ). Zanima nas ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ). Dogajanje si lažje predstavljamo s tabelarično razvrstitvijo 100 000 ljudi.
100 000 ljudi, med njimi je 100 bolnih, od tega jih je o 99 imelo pozitiven test, 1 imel negativen test, 99 900 zdravih, od tega jih je o 1998 imelo pozitiven test in 97 902 imela negativen test.
100 000 ljudi, med njimi je 100 bolnih, od tega jih je o 99 imelo pozitiven test, 1 imel negativen test, 99 900 zdravih, od tega jih je o 1998 imelo pozitiven test in 97 902 imela negativen test. Izid testa Pozitiven Negativen Stanje Zdrav Bolan 99 900 100 100 000
100 000 ljudi, med njimi je 100 bolnih, od tega jih je o 99 imelo pozitiven test, 1 imel negativen test, 99 900 zdravih, od tega jih je o 1998 imelo pozitiven test in 97 902 imela negativen test. Izid testa Stanje Zdrav Bolan Pozitiven 1998 99 2097 Negativen 97 902 1 97 903 99 900 100 100 000
100 000 ljudi, med njimi je 100 bolnih, od tega jih je o 99 imelo pozitiven test, 1 imel negativen test, 99 900 zdravih, od tega jih je o 1998 imelo pozitiven test in 97 902 imela negativen test. Izid testa Stanje Zdrav Bolan Pozitiven 1998 99 2097 Negativen 97 902 1 97 903 99 900 100 100 000 ( ) in ( ).
Ocenjevanje parametrov z Bayesovim pristopom Idejno sledimo spreminjanju verjetnosti hipotez ob tem, ko smo opazili dogodek, to je Bayesova formula ( ) ( ) ( ) ( ).
Ocenjevanje parametrov z Bayesovim pristopom Idejno sledimo spreminjanju verjetnosti hipotez ob tem, ko smo opazili dogodek, to je Bayesova formula ( ) ( ) ( ) ( ). 1. Privzamemo apriorno porazdelitev ( ) za ocenjevani parameter. 2. Izračunamo pogojno verjetnost (verjetje) ( ) opazovanih podatkov glede na fiksno vrednost parametra. 3. Izračunamo aposteriorno porazdelitev ( ) parametra ( ) ( ) ( ) ( ).
Imenovalec predstavlja brezpogojno verjetnost opazovanih podatkov ( ) ( ) ( ) in ni odvisen od parametra. Običajno zapišemo ( ) ( ) ( ) in nato določimo ustrezne konstante.
Imenovalec predstavlja brezpogojno verjetnost opazovanih podatkov ( ) ( ) ( ) in ni odvisen od parametra. Običajno zapišemo ( ) ( ) ( ) in nato določimo ustrezne konstante. Apriorna porazdelitev Podatki Aposteriorna porazdelitev Za oceno parametra navedemo izbrane številske karakteristike ( ).
Vrnimo se k evrskemu kovancu. V desetih metih smo dobili cifer. Kaj lahko povemo o parametru? Vprašali bomo 3 statistike.
Vrnimo se k evrskemu kovancu. V desetih metih smo dobili cifer. Kaj lahko povemo o parametru? Vprašali bomo 3 statistike. Povprašajmo najprej frekventista Franca. 1.1.2011 je bilo v Sloveniji Franc najpogostejše moško ime za osebe, rojene v obdobju 1931 1940. Vzorec ( ) je sicer zelo majhen...
Vrnimo se k evrskemu kovancu. V desetih metih smo dobili cifer. Kaj lahko povemo o parametru? Vprašali bomo 3 statistike. Povprašajmo najprej frekventista Franca. 1.1.2011 je bilo v Sloveniji Franc najpogostejše moško ime za osebe, rojene v obdobju 1931 1940. Vzorec ( ) je sicer zelo majhen... Cenilka po metodi momentov je. Cenilka po metodi največjega verjetja je. Ocenjena standardna napaka zgornjih cenilk je ( ). 95% interval zaupanja za parameter je.
Povprašajmo za mnenje še Bayesovko Barbaro. 1.1.2011 je bilo v Sloveniji Barbara najpogostejše žensko ime na B za osebe, rojene v obdobju 1991 2000. Najpogostejše žensko ime v tem obdobju je bilo Anja.
Povprašajmo za mnenje še Bayesovko Barbaro. 1.1.2011 je bilo v Sloveniji Barbara najpogostejše žensko ime na B za osebe, rojene v obdobju 1991 2000. Najpogostejše žensko ime v tem obdobju je bilo Anja. Barbara se s Francevo oceno ne strinja. Ne verjame, da je lahko evrski kovanec tako zelo nepošten. Uporabila bo Bayesov pristop ( ) ( ) ( )
Funkcija verjetja opazovanih podatkov ( ) je ob znanem parametru enaka binomskemu verjetju. Verjetnost za izid s 7 ciframi znaša ( ) ( ) ( ) ( ).
Funkcija verjetja opazovanih podatkov ( ) je ob znanem parametru enaka binomskemu verjetju. Verjetnost za izid s 7 ciframi znaša ( ) ( ) ( ) ( ). Jasno je, da leži med 0 in 1. To upošteva pri apriorni porazdelitvi. Možna izbira je beta porazdelitev.
Naj bo ( ). Potem je ( ) ( ) ( ) ( ) za, ( ), ( ) ( ) ( ).
Naj bo ( ). Potem je ( ) ( ) ( ) ( ) za, ( ), ( ) ( ) ( ). Ker Barbara meni, da je kovanec pošten, bo hiperparametra in določila tako, da bo ( ). To pomeni, da mora izbrati. Disperzija je zato enaka ( ) Pri izbiri to znese. ( ), standardni odklon pa ( ).
Graf Barbarine apriorne porazdelitve parametra.
Graf Barbarine apriorne porazdelitve parametra. Z uporabo Bayesovega pravila ugotovi, da je ( ) ( ) ( ) ( ) Opazi obliko beta porazdelite, zato ( ) ( )
Graf Barbarine aposteriorne porazdelitve parametra.
Graf Barbarine aposteriorne porazdelitve parametra. Njene lastnosti so upanje, disperzija ( ) ( ), standardni odklon.
Graf Barbarine aposteriorne porazdelitve parametra. 95% centralni interval aposteriorne verjetnosti znaša.
Tretji statistik je Bayesovec Blaž. 1.1.2011 je bilo v Sloveniji Blaž najpogostejše moško ime na B za osebe, rojene v obdobju 1991 2000. Najpogostejše moško ime v tem obdobju je bilo Luka.
Tretji statistik je Bayesovec Blaž. 1.1.2011 je bilo v Sloveniji Blaž najpogostejše moško ime na B za osebe, rojene v obdobju 1991 2000. Najpogostejše moško ime v tem obdobju je bilo Luka. Blaž zelo verjame, da je evrski kovanec pošten. Glede funkcije verjetja opazovanih podatkov ( ) se strinja z Barbaro ( ) ( ) ( ) ( ). Izbira apriorne beta porazdelitev se mu zdi primerna (le zakaj?).
Tretji statistik je Bayesovec Blaž. 1.1.2011 je bilo v Sloveniji Blaž najpogostejše moško ime na B za osebe, rojene v obdobju 1991 2000. Najpogostejše moško ime v tem obdobju je bilo Luka. Blaž zelo verjame, da je evrski kovanec pošten. Glede funkcije verjetja opazovanih podatkov ( ) se strinja z Barbaro ( ) ( ) ( ) ( ). Izbira apriorne beta porazdelitev se mu zdi primerna (le zakaj?). Hiperparametra bo določil tako, da bo standardni odklon apriorne porazdelitve veliko manjši. Pri izbiri je ( ).
Graf Blaževe apriorne porazdelitve parametra.
Graf Blaževe apriorne porazdelitve parametra. Z uporabo Bayesovega pravila ugotovi, da je ( ) ( ) ( ) ( ) Opazi obliko beta porazdelite, zato ( ) ( )
Graf Blaževe aposteriorne porazdelitve parametra.
Graf Blaževe aposteriorne porazdelitve parametra. upanje, disperzija ( ) ( ), standardni odklon. 95% centralni interval aposteriorne verjetnosti.
Rezultati in nekaj lastnosti Bayesove statistike Franc Barbara Blaž Ocena Standardni odklon Intervalska ocena
Rezultati in nekaj lastnosti Bayesove statistike Franc Barbara Blaž Ocena Standardni odklon Intervalska ocena 1. Prikazovanje rezultatov Barbara in Blaž sta za oceno parametra izbrala upanje aposteriorne porazdelitve neznanega parametra, negotovost pa predstavila z njenin standardnim odklonom ter centralnim intervalom aposteriorne gostote. Obstajajo še druge možne točkaste in intervalske ocene istega parametra.
2. Konjugirane apriorne porazdelitve Dužina beta porazdelitev je konjugirana k funkciji verjetja binomske porazdelitve. Takih parov je v Bayesovi statistiki ogromno.
2. Konjugirane apriorne porazdelitve Dužina beta porazdelitev je konjugirana k funkciji verjetja binomske porazdelitve. Takih parov je v Bayesovi statistiki ogromno. 3. Aposteriorna porazdelitev je kompromis med apriorno in podatki Pri apriorni porazdelitvi ( ) in opazovanih 7 cifrah in 3 Trubarjih, je ( ) ( ) ( ) Pri Barbari ( Pri Blažu ( ) sta»vodilno«vlogo imeli števili 7 in 3 iz poskusa. ) je imelo vodilno vlogo njegovo apriorno prepričanje. Aposteriorne porazdelitve so vselej kompromis med podatki in apriornimi prepričanji. Pri tem pa z rastočo velikostjo vzorca raste pomen podatkov.
4. Bayesova statistika je subjektivna Barbarina apriorna porazdelitev vsebuje faktorja ( ) kar je ekvivalentno dejstvu, da bi v šestih metih kovanca opazili 3 cifre. Blaževa apriorna porazdelitev vsebuje faktorja ( ) kar je ekvivalentno apriornemu prepričanju, da v 118 metih padlo 59 cifer. To kaže na njegovo močno prepričanje, da je kovanec pošten.
4. Bayesova statistika je subjektivna Barbarina apriorna porazdelitev vsebuje faktorja ( ) kar je ekvivalentno dejstvu, da bi v šestih metih kovanca opazili 3 cifre. Blaževa apriorna porazdelitev vsebuje faktorja ( ) kar je ekvivalentno apriornemu prepričanju, da v 118 metih padlo 59 cifer. To kaže na njegovo močno prepričanje, da je kovanec pošten. 5. Bayesova statistika iz istih podatkov pride do različnih zaključkov Vzrok za to je v subjektivni izbiri apriorne porazdelitve. Bayesovi statistiki te očitke zavračajo s filozofskim vprašanjem, kaj sploh so naši podatki.
Imamo tri statistike in tri različne ocene istega parametra. Komu najbolj zaupamo?
Imamo tri statistike in tri različne ocene istega parametra. Komu najbolj zaupamo?
Imamo tri statistike in tri različne ocene istega parametra. Komu najbolj zaupamo? Bayesova statistika se nam zdi privlačna, ker smo imeli malo podatkov in veliko vedenja o apriornih porazdelitvah. V drugačnih situacijah je lahko rezultat nasproten.
Kako se Bayesovi statistiki spopadajo z očitki subjektivnosti Vpeljali so t.i. neinformativne apriorne porazdelitve. Z družino beta porazdelitev lahko opišemo zelo različna prepričanja.
Kako se Bayesovi statistiki spopadajo z očitki subjektivnosti Vpeljali so t.i. neinformativne apriorne porazdelitve. Z družino beta porazdelitev lahko opišemo zelo različna prepričanja. Simetrične porazdelitve dobimo pri (oziroma a = b na sliki). Pri izbiri dobimo enakomerno porazdelitev na intervalu. To pomeni, da nimamo nikakršnih apriornih pričakovanj.
Če verjamemo, da kovanec ni pošten, so možne še nesimetrične porazdelitve.
Če verjamemo, da kovanec ni pošten, so možne še nesimetrične porazdelitve. Apriorno porazdelitev lahko izberemo tudi izven družine beta porazdelitev. Ideje ostanejo iste, le računanje se (zelo) zakomplicira...... simulacijski algoritmi
Analiza kovanca z neinformativno apriorno porazdelitvijo ( ) Če je apriorna porazdelitev enakomerna na intervalu porazdelitev je aposteriorna ( ) ( ) ( ) ( ) kar sorazmerna funkciji verjetja. V našem primeru dobimo ( ). Njene lastnosti so upanje, standardni odklon. 95% centralni interval aposteriorne verjetnosti.
Bomo šli domov? Po vsej analizi se odločimo, da bomo stavili na cifro. Kolikšna je tedaj verjetnost, da bomo po metu kovanca odšli domov?
Bomo šli domov? Po vsej analizi se odločimo, da bomo stavili na cifro. Kolikšna je tedaj verjetnost, da bomo po metu kovanca odšli domov? V Bayesovi statistiki lahko odgovorimo, saj poznamo porazdelitev parametra. ( ) ( ) ( ) ( ) ( ). Barbara tako izračuna verjetnost, Blaž pa verjetnost.
Bayesovo posodabljanje ocen Denimo, da smo isti kovanec vrgli še 5-krat ter pri tem dobili 2 cifri in 3 Trubarje. Skupaj smo v 15 metih dobili 9 cifer in 6 Trubarjev. Barbarina apriorna porazdelitev je ( )
Bayesovo posodabljanje ocen Denimo, da smo isti kovanec vrgli še 5-krat ter pri tem dobili 2 cifri in 3 Trubarje. Skupaj smo v 15 metih dobili 9 cifer in 6 Trubarjev. Barbarina apriorna porazdelitev je ( ) Be(4,4) 7 C 3 T Be(11,7) Be(4,4) 9 C 6 T B(13,10)
Bayesovo posodabljanje ocen Denimo, da smo isti kovanec vrgli še 5-krat ter pri tem dobili 2 cifri in 3 Trubarje. Skupaj smo v 15 metih dobili 9 cifer in 6 Trubarjev. Barbarina apriorna porazdelitev je ( ) Be(4,4) 7 C 3 T Be(11,7) Be(11,7) 2 C 3 T B(13,10) Be(4,4) 9 C 6 T B(13,10)
Zaključek Frekventistična statistika Bayesova statistika Parametri Ocenjevanje parametrov Parametri so neznane konstante. 95% interval zaupanja za parameter je. Če poskus in analizo ponovimo zelo velikokrat, bomo v 95% primerov pokrili pravo vrednost. Parametri so slučajne spremenljivke. Verjetnost, da parameter na intervalu oz. intervalu je 95%. leži
Zaključek Frekventistična statistika Bayesova statistika Parametri Ocenjevanje parametrov Parametri so neznane konstante. 95% interval zaupanja za parameter je. Če poskus in analizo ponovimo zelo velikokrat, bomo v 95% primerov pokrili pravo vrednost. Parametri so slučajne spremenljivke. Verjetnost, da parameter na intervalu oz. intervalu je 95%. leži Zaključki Bayesove statistike so običajno bistveno lažje razumljivi kot zaključki frekventistične statistike. Zakaj se torej ne učimo Bayesove statistike? Zahtevni računi, primerni za matematično dobre slušatelje. Težka smiselna izbira apriornih porazdelitev, očitki subjektivnosti. Tradicija znanstvenih podočij frekventistična statistika.
Viri in literatura [1] J. Albert: Bayesian Computation With R, Springer, New York, 2009 [2] J.A. Čibej: Matematika. Kombinatorika, verjetnostni račun, statistika, DZS, Ljubljana, 1994 [3] A.B. Gelman, J.B. Carlin, H. Steven Stern, D.B. Rubin: Bayesian data analysis, Chapman & Hall/CRC, 2004 [4] M. Lavine: What is Bayesian statistics and why everything else is wrong, http://www.math.umass.edu/~lavine/whatisbayes.pdf [5] M. Parker: Foundations of Statistics Frequentist and Bayesian, http://www.austincc.edu/mparker/stat/nov04/talk_nov04.pdf [6] J.W. Stevens: What is Bayesian statistics? http://www.medicine.ox.ac.uk/bandolier/painres/download/whatis/what_is_bay_stats.pdf
Hvala za pozornost in srečno!