Power Wintersemester 2016/17 Jerome Olsen
Power True result H0 ist wahr H0 ist falsch Test result H0 Annahme (kein sig. Ergebnis) H0 Verwerfung (sig. Ergebnis) 1-α β 95% 20% α 1-β 5% 80% Type-II error Type-I error Power (1 - β) Wahrscheinlichkeit dass ein Test die H0 korrekterweise verwirft Fähigkeit eines Tests, einen Effekt zu finden, wenn er tatsächlich existiert
p-wertverteilung wenn unter H0 http://rpsychologist.com/d3/pdist/
p-wertverteilung wenn unter H1
p-wertverteilung wenn unter H1
Parameter für Power-Analyse zur Bestimmung von N α: Irrtumswahrscheinlichkeit.05 β: Power = 1-β.20; Power =.80 d r f ηp 2 etc.: Effektstärke??? UV & AV: Design Planung! ANOVA t-test etc.: Auswertungsmethode
Annahme: UV (2 Gruppen) AV (1 Messung) Contents lists available at ScienceDirect Journal of Experimental Social Psychology journal homepage: www.elsevier.com/locate/jesp Elaboration enhances the imagined contact effect Senel Husnu, Richard J. Crisp Centre for the Study of Group Processes, University of Kent, Canterbury, UK
Annahme: UV (2 Gruppen) AV (1 Messung) Contents lists available at ScienceDirect Journal of Experimental Social Psychology journal homepage: www.elsevier.com/locate/jesp Elaboration enhances the imagined contact effect Senel Husnu, Richard J. Crisp Centre for the Study of Group Processes, University of Kent, Canterbury, UK N = 33 p =.023 d =.86
Annahme: UV (2 Gruppen) AV (1 Messung) https://www.psychometrica.de/effektstaerke.html
Originalstudie: N = 33, p =.023, d =.86 Wie bestimme ich für eine Replikation (oder eine auf diesem Effekt basierende Studie) die benötigte Stichprobe? 5 Methoden 1. Naiv 2. 2.5 x N rule 3. Safeguard power 4. Divide by 2 correction 5. Large N Replikationsprojekte (falls vorhanden)
G*Power 3.1 Test family Exact, F, t,! 2, z Statistical test ANOVA, ANCOVA, MANOVA etc. Type of power analysis A priori etc. Input parameters Effect size, α, 1-β, groups, df Output parameters N, actual power etc. http://www.gpower.hhu.de
Originalstudie: N = 33, p =.023, d =.86 1. Naiv t-test Difference two groups α =.05 1 - β =.80 Cohen s d =.86 Result: N = 46
Originalstudie: N = 33, p =.023, d =.86 2. 2.5 x N rule 33 x 2.5 = 83 t-test Difference two groups α =.05 1 - β =? Cohen s d =? Result: N = 33 x 2.5 = 83 Simonsohn (2015) Problemannahme: Effekte in der Literatur sind überschätzt Lösung: Man sollte von einem kleineren Effekt ausgehen, daher N im Vergleich zum Original deutlich erhöhen.
Originalstudie: N = 33, p =.023, d =.86 3. Safeguard power t-test Perugini, Gallucci, & Costantini (2014) Perspectives on Psychological Science Difference two groups α =.05 1 - β =.80 Cohen s d =.52 Result: N = 120
Originalstudie: N = 33, p =.023, d =.86 4. Divide by 2 correction t-test Difference two groups α =.05 1 - β =.80 Cohen s d =.43 Result: N = 172
Originalstudie: N = 33, p =.023, d =.86 5. Replikationsprojekte t-test Difference two groups α =.05 1 - β =.80 Cohen s d =.13 Result: N = 1860
Power analysis Contents lists available at ScienceDirect Journal of Experimental Social Psychology journal homepage: www.elsevier.com/locate/jesp Elaboration enhances the imagined contact effect Senel Husnu, Richard J. Crisp n = 33, d =.86, p =.023 Centre for the Study of Group Processes, University of Kent, Canterbury, UK Method Overall N 1.) naive (d =.86) 46 2.) 2.5x N rule 83 3.) Safeguard (60% lower CI) (d =.55) 120 4.) Divide by 2 correction (d =.43) 172 5.) Many labs replication (d =.13) 1860
Power analysis Welche Methode ist die richtige? Unklar Wichtiger ist, dass ein Kriterium definiert und eingehalten wird Nachvollziehbarkeit und Plausibilität Argumentation bezüglich Fachdiskussion sowie Machbarkeit Ab wann sollte man einen Effekt nicht mehr untersuchen? Wie lange ist praktische Relevanz einer Effektgröße gegeben? Method Overall N 1.) naive (d =.86) 46 2.) 2.5x N rule 83 3.) Safeguard (60% lower CI) (d =.55) 120 4.) Divide by 2 correction (d =.43) 172 5.) Many labs replication (d =.13) 1860
Power in Bezug auf Bachelorarbeiten Gain vs. loss framing 1.) naive (d = 1.13) 32 2.) 2.5x N rule (307 x 2.5) 768 3.) Safeguard (60% lower CI) (d = 1.04) 38 4.) Divide by 2 correction (d =.57) 105 5.) Many labs replication (d =.58) 102 Currency priming 1.) naive (d = 0.80) 52 2.) 2.5x N rule (30 x 2.5) 75 3.) Safeguard (60% lower CI) (d = 0.45) 158 4.) Divide by 2 correction (d =.40) 200 5.) Many labs replication (d =.01) 313,958
Neuer Effekt und keine Information? Beispiel aus Olsen, Kogler, Stark und Kirchler (2016): The sample size was predetermined based on a power analysis in G*Power with α =.05, 1 β =.95, and an expected effect size of ηp 2 =.03 (effect in the mid-range of a small effect 2, corresponding to Cohen s d =.35). The main statistical test of the study was a 2 (stimulus) by 2 (employment status) MANOVA with two dependent variables (polarity and neutrality of the associations). The power analysis resulted in a sample size of N = 344. 2 We could not identify prior research that provides a reference for an expectable effect size. Based on general experience in the field of tax research, we expected an effect size in the range of small effects.
Power-Analyse für komplexere Analysen Je nach Verfahren werden Power-Analysen komplizierter Bereits für Regressionen und! 2 -Designs fordernder als für t-test und F-Test Sprechstunden!
jerome.olsen@univie.ac.at The selection of certain materials was influenced by presentations held by Felix Schönbrodt and Daniel Lakens as well as various online blogs on the topic.