Basics of Statistical Estimation

Size: px

Start display at page:

Download "Basics of Statistical Estimation"

Elaine Watts
5 years ago
Views:

1 Basics of Statistical Estimation Doug Downey, Nortwestern EECS 395/495, Spring 206 (several illustrations from P. Domingos, University of Wasington CSE

2 Bayes Rule P(A B = P(B A P(A / P(B Example: P(symptom disease = 0.95, P(symptom disease = 0.05 P(disease = P(disease symptom = P(symptom disease*p(disease P(symptom = 0.95*0.000 = * *0.9999

3 Bayes Rule P(A B = P(B A P(A / P(B Also: P(A B, C = P(B A, C P(A C / P(B C More generally: P(A B = P(B A P(A / P(B (Boldface indicates vectors of variables

4 Bayes Rule Wy is Bayes Rule so important? Often, we want to deduce P(Hidden state Data E.g., Hidden state = disease, Data = symptoms and te simplest way to express tat is in terms of causes of te model: P(Data Model E.g., ow common is a symptom, wit or witout a given disease times a prior belief about te model, P(Model E.g., probability of a disease

5 Terms for Bayes P(Model Data = P(Data Model P(Model / P(Data P(Model : Prior P(Data Model : Likeliood P(Model Data : Posterior

6 Probabilistic Models Joint Distribution can answer ueries P(symptoms, disease can be used to predict weter person as disease based on symptoms But: Were do te probabilities come from (learning? How do we represent a joint compactly using conditional independencies? (representation grapical models

7 Learning Probabilities:Classical Approac Simplest case: Flipping a tumbtack eads tails True probability is unknown Given: flips generated independently wit te same, (a.k.a. Independent and identically distributed data - iid, Estimate:

8 Estimating Probabilities Tree Metods: Maximum Likeliood Estimation (ML Bayesian Estimation Maximum A posteriori Estimation (MAP

9 Maximum Likeliood Principle Coose te parameters tat maximize te probability of te observed data

10 Tink/Pair/Sare If Data={ eads and t tails}, wat parameter θ maximizes te probability of Data? Tink Start End 0

11 Tink/Pair/Sare If Data={ eads and t tails}, wat parameter θ maximizes te probability of Data? Pair Start End

12 Tink/Pair/Sare If Data={ eads and t tails}, wat parameter θ maximizes te probability of Data? Sare 2

13 Maximum Likeliood Estimation p ( e a d s p ( tails ( p # ( t... t t t ( # t (Number of eads is binomial distribution

14 Computing te ML Estimate Use log-likeliood Differentiate wit respect to parameter(s Euate to zero and solve Solution: # # # t

15 Sufficient Statistics p ( t... ttt ( # # t (#,#t are sufficient statistics

16 Bayesian Estimation eads tails True probability is unknown Bayesian probability density for p( 0

17 Use of Bayes Teorem posterior prior likeliood p( eads p( p(eads p( p(eads d p ( p ( e a d s

18 Example: Observation of Heads" p( p(eads = p( eads prior likeliood posterior

19 Probability of Heads on Next Toss ( ( ( ( is t toss ( ( d d d d p N E d p d p X p n p

20 MAP Estimation Approximation: Instead of averaging over all parameter values Consider only te most probable value (i.e., value wit igest posterior probability Usually a very good approximation, and muc simpler MAP value Expected value MAP ML for infinite data (as long as prior 0 everywere

21 Prior Distributions for Direct assessment Parametric distributions Conjugate distributions (for convenience

22 Conjugate Family of Distributions (, Beta( ( t t p # ( # tails ead s, ( t t t p Beta distribution: Resulting posterior distribution: 0, t

23 Estimates Compared Prior prediction: Bayesian posterior prediction MAP estimate: ML estimate: t # + # # t E + ( # + # # t t t t + E # # # (

24 Intuition Te yperparameters and t can be tougt of as imaginary counts from our prior experience, starting from "pure ignorance" Euivalent sample size = + t ( euivalent in terms of effect on Bayesian estimate Te larger te euivalent sample size, te more confident we are about te true probability

25 Beta Distributions Beta(0.5, 0.5 Beta(, Beta(3, 2 Beta(9, 39

26 Assessment of a Beta Distribution Metod : Euivalent sample - assess and t - assess + t and /( + t p Metod 2: Imagined future samples ( e a d s 0.2 a nd p ( e a d s 3 e a d s 0.5, t 4 ceck : 0. 2 =,

27 Generalization to m Outcomes (Multinomial Distribution,, Diriclet( ( i i m i m,θ m, θ p m i N i m i i N, N p, ( Diriclet distribution: m i i i i E ( Properties: 0 i m i i

28 Oter Distributions Likelioods from te exponential family Binomial Multinomial Poisson Gamma Normal

Bayesian Models in Machine Learning

Bayesian Models in Machine Learning Lukáš Burget Escuela de Ciencias Informáticas 2017 Buenos Aires, July 24-29 2017 Frequentist vs. Bayesian Frequentist point of view: Probability is the frequency of