Annahmen für statistische Tests und technische Details
Stats iQ wählt statistische Tests mit dem Ziel aus, statistische Tests intuitiv und fehlerfrei zu machen.
Auf dieser Seite werden übergreifende Themen des Ansatzes von Stats iQ beschrieben, und im Folgenden werden spezifische Entscheidungen für bestimmte Tests beschrieben:
Grundlegende Annahmen
Wenn möglich, verwendet Stats iQ standardmäßig Tests mit weniger Annahmen. Beispielsweise können unabhängige t-Tests auf verschiedene Arten berechnet werden, je nachdem, ob von gleichgroßen Stichproben oder Abweichungen ausgegangen wird. Stats iQ führt den Test mit den geringsten Annahmen aus.
Darüber hinaus mindert Stats iQ auf intelligente Weise Verstöße gegen die Annahmen statistischer Tests. Beispielsweise erfordern t-Tests an relativ kleinen Stichproben, dass normal verteilte Daten genau sind. Ausreißer oder nicht normale Verteilungen führen zu irreführenden Ergebnissen. Jeder Datenpunkt von
[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]
ist niedriger als jeder Datenpunkt in
[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]
Ein unabhängiger t-Test für diese Gruppen ergibt jedoch keinen statistisch signifikanten Unterschied, da der Ausreißer 2000 gegen t-Test-Annahmen verstößt. Stats iQ bemerkt den Ausreißer und empfiehlt stattdessen einen Ranglisten-t-Test, der zu einem deutlichen Unterschied zwischen den Gruppen führt.
Rang-Transformationen
Stats iQ verwendet häufig die Rank-Transformationsmethode, um nicht-parametrische Tests auszuführen, wenn Verstöße gegen parametrische Testannahmen festgestellt werden. Die Rangumwandlung von Stats iQ ersetzt Werte durch ihre Rangfolge – z.B.
[86, 95, 40] wird in [2, 3, 1] umgewandelt
– führt dann den typischen Parametertest für die transformierten Daten aus. Gebundene Werte erhalten den durchschnittlichen Rang der gebundenen Werte, sodass
[11, 35, 35, 52] wird [1, 2.5, 2.5, 4].
Die am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelationen auftretenden Rank-transformierten Tests sind robust zu nicht normalen Verteilungen und Ausreißern und konzeptionell einfacher als die Verwendung von etwas gängigeren nicht-parametrischen Tests.
ANOVA
Wenn Benutzer eine kategorische Variable mit drei oder mehr Gruppen und eine kontinuierliche oder diskrete Variable auswählen, führt Stats iQ einen einseitigen ANOVA (Welch’s F-Test) und eine Reihe paarweiser „Post-hoc“-Tests (Games-Howell-Tests) aus. Die Einweg-ANOVA-Tests auf eine Gesamtbeziehung zwischen den beiden Variablen und die paarweisen Tests testen jedes mögliche Gruppenpaar, um festzustellen, ob eine Gruppe tendenziell höhere Werte aufweist als die andere.
Annahmen für Welch’s F Test ANOVA
Stats iQ empfiehlt einen unbewerteten F-Test von Welch, wenn mehrere Annahmen über die Daten bestehen:
- Der Stichprobenumfang ist größer als das 10-fache der Anzahl der Gruppen in der Berechnung (Gruppen mit nur einem Wert werden ausgeschlossen). Daher erfüllt der zentrale Limitsatz die Anforderung für normal verteilte Daten.
- Die kontinuierlichen/diskreten Daten enthalten nur wenige oder keine Ausreißer.
Anders als der etwas häufigere F-Test auf gleiche Abweichungen geht Welchs F-Test nicht davon aus, dass die Abweichungen der zu vergleichenden Gruppen gleich sind. Die Annahme, dass gleiche Abweichungen zu weniger genauen Ergebnissen führen, wenn die Abweichungen nicht identisch sind, und die Ergebnisse sehr ähnlich sind, wenn die Abweichungen tatsächlich gleich sind (Tomarken und Serlin, 1986).
ANOVA mit Rang
Wenn Annahmen verletzt werden, ist die nicht eingestufte ANOVA möglicherweise nicht mehr gültig. In diesem Fall empfiehlt Stats iQ die Rangfolge ANOVA (auch „ANOVA auf Rängen“ genannt); Stats iQ rank-transformiert die Daten (ersetzt Werte durch ihre Rangfolge) und führt dann dieselbe ANOVA für diese transformierten Daten aus.
Das ANOVA-Ranking ist robust für Ausreißer und nicht normal verteilte Daten. Die Rank-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode) und wird am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelation beobachtet. Die Rang-Transformation mit anschließendem F-Test von Welch ähnelt dem Kruskal-Wallis-Test (Zimmerman, 2012).
Beachten Sie, dass die ANOVA-Effektgrößen (Cohen’s f) von Stats iQ anhand des F-Werts aus dem F-Test für gleiche Abweichungen berechnet werden.
Annahmen des Games-Howell-Paarungstests
Stats iQ führt Games-Howell-Tests unabhängig vom Ergebnis des ANOVA-Tests aus (gemäß Zimmerman, 2010). Stats iQ zeigt nicht eingestufte oder bewertete Games-Howell-Paartests, die auf denselben Kriterien basieren wie die für ANOVA mit Rangfolge vs. unrangierte ANOVA. Wenn Sie also in der erweiterten Ausgabe „ANOVA mit Rangfolge“ sehen, werden auch die paarweisen Tests in eine Rangfolge gebracht.
Games-Howell ist im Wesentlichen ein t-Test auf ungleiche Abweichungen, der die erhöhte Wahrscheinlichkeit ausmacht, zufällig statistisch signifikante Ergebnisse zu finden, wenn viele paarweise Tests ausgeführt werden. Im Gegensatz zum etwas gängigeren Tukey-Test b geht der Games-Howell-Test nicht davon aus, dass die Abweichungen der zu vergleichenden Gruppen gleich sind. Die Annahme, dass gleiche Abweichungen zu weniger genauen Ergebnissen führen, wenn Abweichungen nicht gleich sind, und ihre Ergebnisse sehr ähnlich sind, wenn die Abweichungen tatsächlich gleich sind (Howell, 2012).
Beachten Sie, dass der nicht eingestufte paarweise Test zwar auf die Gleichheit der Mittel der beiden Gruppen testet, der rangierte paarweise Test jedoch nicht explizit auf Unterschiede zwischen den Mitteln oder Medianwerten der Gruppen testet. Vielmehr wird auf eine allgemeine Tendenz einer Gruppe getestet, größere Werte als die andere zu haben.
Während Stats iQ keine Ergebnisse paarweiser Tests für eine Gruppe mit weniger als 4 Werten anzeigt, werden diese Gruppen in die Berechnung der Freiheitsgrade für die anderen paarweisen Tests einbezogen.
Zusätzliche ANOVA-Überlegungen
- Bei kleineren Stichprobengrößen können die Daten weiterhin visuell geprüft werden, um festzustellen, ob sie tatsächlich normal verteilt sind. Ist dies der Fall, sind nicht eingestufte t-Testergebnisse auch für kleine Stichproben gültig. In der Praxis kann diese Bewertung schwierig sein, daher empfiehlt Stats iQ standardmäßig eine Rangfolge von t-Tests für kleine Beispiele.
- Bei größeren Stichprobengrößen ist es weniger wahrscheinlich, dass Ausreißer sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Quartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
- Daten wie Höchster Bildungsabschluss oder Finishing-Reihenfolge im Marathon sind eindeutig ordinal. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, bei der 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. mit einem nicht eingestuften t-Test).
Stats iQ-Ausnahmetabellen
Wenn Benutzer zwei kategorische Variablen auswählen, beurteilt Stats iQ, ob diese beiden Variablen statistisch zusammenhängen. Stats iQ führt den exakten Test von Fisher aus, wenn möglich, und ansonsten den Chi-Quadrat-Test von Pearson (in der Regel nur „Chi-Quadrat“ genannt).
Chi-Quadrat vs. Exakter Test von Fisher
Der genaue Test von Fisher ist unvoreingenommen, wann immer er ausgeführt werden kann, aber er ist rechnerisch schwierig, wenn die Tabelle größer als 2 x 2 oder die Stichprobengröße größer als 10.000 ist (auch bei moderner Datenverarbeitung). Chi-Quadrat-Tests können verzerrte Ergebnisse haben, wenn die Stichprobengrößen niedrig sind (technisch gesehen, wenn die erwarteten Zellzahlen unter 5 liegen).
Glücklicherweise ergänzen sich die beiden Tests insofern, als Fishers exakter Test in der Regel leicht zu berechnen ist, wenn Chi-Quadrat-Tests verzerrt sind (kleine Proben) und wenn der exakte Test von Fisher schwer zu berechnen ist, tendiert Chi-Quadrat eher unvoreingenommen (große Proben). Insomuch, da größere Tabellen mit kleinen Beispielen immer noch Probleme verursachen können (und Stats iQ keinen exakten Fisher-Test ausführen kann), warnt Stats iQ Benutzer auf mögliche Komplikationen.
Angepasste Residuen
Wie andere statistische Software verwendet Stats iQ angepasste Residuen, um zu beurteilen, ob eine einzelne Zelle statistisch signifikant über oder unter den Erwartungen liegt. Im Wesentlichen fragt der angepasste Rest: „Hat diese Zelle mehr Werte, als ich erwartet hätte, wenn es keine Beziehung zwischen diesen beiden Variablen gibt?“
Wenn die Daten so angezeigt werden, dass jede Spalte 100 % ergibt, können Sie sagen: „Der Anteil der Befragten aus dem Finanz-/Bankwesen, die sagten, dass sie „ihre Arbeit lieben“, ist niedriger als typisch, im Vergleich zu Befragten aus anderen Branchen.“
Stats iQ zeigt bis zu 3 Pfeile an, abhängig vom p-Wert, der aus dem angepassten Rest berechnet wurde. Stats iQ zeigt je nach Wichtigkeit des Ergebnisses eine unterschiedliche Anzahl von Pfeilen an. Konkret wird ein Pfeil angezeigt, wenn der p-Wert kleiner ist als alpha (1 – Konfidenzniveau), zwei Pfeile, wenn der p-Wert kleiner als alpha/5 ist, und drei Pfeile, wenn der p-Wert kleiner als alpha/50 ist. Zum Beispiel wurde Ihr Konfidenzniveau auf 95 % eingestellt:
- p-value <= .05: ein Pfeil
- p-value <= .01: zwei Pfeile
- p-value <= .001: drei Pfeile
Die Berechnung des angepassten Restwerts und sein Vergleich mit bestimmten Alpha-Werten können als „z-Test“ oder „z-Test für einen Stichprobenprozentsatz“ gekennzeichnet werden. In der Literatur heißt es in der Regel einfach, dass Schlussfolgerungen auf angepassten Residuen beruhten.
Konfidenzintervalle
Für alle Binomialkonfidenzintervalle, einschließlich Eventualtabellen und in Balkendiagrammen vom Typ „Beschreiben“ berechnet Stats iQ das Konfidenzintervall mithilfe des Wilson-Score-Intervalls.
Stats iQ-Korrelationen
Wenn Benutzer zwei stetige oder diskrete Variablen auswählen, führt Stats iQ eine Korrelation aus, um zu beurteilen, ob diese beiden Gruppen statistisch zusammenhängen. Stats iQ berechnet standardmäßig Pearsons r, die gängigste Korrelationsart. Wenn die Annahmen dieses Tests nicht erfüllt werden, empfiehlt Stats iQ eine Ranking-Version desselben Tests, die Spearmans Rho berechnet. Darüber hinaus verwendet Stats iQ die Fisher-Transformation, um Konfidenzintervalle für den Korrelationskoeffizienten zu berechnen.
Annahmen von Pearson’s r
Stats iQ empfiehlt Pearson’s r als gültiges Maß für Korrelation, wenn bestimmte Annahmen bezüglich der Daten erfüllt sind:
- Es gibt keine Ausreißer in den kontinuierlichen/diskreten Daten.
- Die Beziehung zwischen den Variablen ist linear (z.B. y = 2x, nicht y = x^2).
Stats iQ zeigt keine Zeile mit der besten Anpassung an, wenn es eine Verletzung dieser Annahmen feststellt.
Rangfolge der Korrelation (Spearman’s Rho)
Wenn Annahmen verletzt werden, ist der Pearson’s r möglicherweise kein gültiges Maß für Korrelation mehr. In diesem Fall empfiehlt Stats iQ Spearmans Rho; Stats iQ rank-transformiert die Daten (ersetzt Werte durch ihre Rangfolge) und führt dann die typische Korrelation aus. Die Rang-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode), und die Rangtransformation von Pearson nach Spearman ist die häufigste (Conover and Iman, 1981). Beachten Sie, dass Spearmans Rho immer noch davon ausgeht, dass die Beziehung zwischen den Variablen monotonisch ist.
Zusätzliche Überlegungen zu Korrelationen
- Bei größeren Stichprobengrößen ist es weniger wahrscheinlich, dass Ausreißer sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Quartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
- Stats iQ identifiziert eine Beziehung als nichtlinear, wenn Spearmans Rho > 1.1 * Pearsons r und Spearmans rho statistisch signifikant sind.
- Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, bei der 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. mit Pearsons r.).
Stats iQ T-Tests
Wenn Benutzer eine binäre Variable mit einer kontinuierlichen oder diskreten Variablen in Beziehung setzen möchten, führt Stats iQ einen zweitaktigen t-Test durch (alle statistischen Tests in Qualtrics sind ggf. zweitailiert), um zu bewerten, ob eine der beiden Gruppen tendenziell höhere Werte als die andere für die stetige/diskrete Variable aufweist. Stats iQ verwendet standardmäßig den t-Test des Welch, der auch als t-Test für ungleiche Abweichungen bezeichnet wird. Wenn die Annahmen dieses Tests nicht erfüllt sind, empfiehlt Stats iQ eine eingestufte Version desselben Tests.
Annahmen für den T-Test von Welch
Stats iQ empfiehlt Welchs t-Test (im Folgenden „t-Test“), wenn mehrere Annahmen bezüglich der Daten bestehen:
- Der Stichprobenumfang jeder Gruppe liegt über 15 (und somit erfüllt der Central Limit Theorem die Anforderung für normal verteilte Daten).
- Die kontinuierlichen/diskreten Daten enthalten nur wenige oder keine Ausreißer.
Im Gegensatz zum etwas gängigeren t-Test auf gleiche Abweichungen geht Welchs t-Test nicht davon aus, dass die Abweichungen der beiden zu vergleichenden Gruppen gleich sind. Das moderne Computing hat diese Annahme überflüssig gemacht. Außerdem führt die Annahme gleicher Abweichungen zu weniger genauen Ergebnissen, wenn Abweichungen nicht gleich sind, und ihre Ergebnisse sind nicht genauer, wenn Abweichungen tatsächlich gleich sind (Ruxton, 2006).
Rang-T-Test
Wenn Annahmen verletzt werden, ist der t-Test möglicherweise nicht mehr gültig. In diesem Fall empfiehlt Stats iQ den Ranking-t-Test; Stats iQ rank-transformiert die Daten (ersetzt Werte durch ihre Rangfolge) und führt dann denselben t-Test von Welch für diese transformierten Daten aus. Der Ranglisten-t-Test ist robust für Ausreißer und nicht normal verteilte Daten. Die Rank-Transformation ist eine etablierte Methode zum Schutz vor Vermutungsverletzungen (eine „nicht-parametrische“ Methode) und wird am häufigsten im Unterschied zwischen Pearson- und Spearman-Korrelation (Conover and Iman, 1981) beobachtet. Die Rang-Transformation mit anschließendem t-Test von Welch ähnelt dem Mann-Whitney-U-Test, aber etwas effizienter (Ruxton, 2006; Zimmerman, 2012).
Beachten Sie, dass bei den t-Tests auf Gleichheit der Mittel der beiden Gruppen der Ranglisten-t-Test nicht explizit auf Unterschiede zwischen den Mittelwerten oder Medianwerten der Gruppen prüft. Vielmehr wird auf eine allgemeine Tendenz einer Gruppe getestet, größere Werte als die andere zu haben.
Weitere Überlegungen für T-Tests
- Bei Stichprobengrößen unter 15 können die Daten weiterhin visuell geprüft werden, um zu ermitteln, ob sie normal verteilt sind. Ist dies der Fall, sind nicht eingestufte t-Testergebnisse auch für kleine Stichproben gültig. In der Praxis kann diese Bewertung schwierig sein, daher empfiehlt Stats iQ standardmäßig eine Rangfolge von t-Tests für kleine Beispiele.
- Bei größeren Stichprobengrößen ist es weniger wahrscheinlich, dass Ausreißer sich negativ auf die Ergebnisse auswirken. Stats iQ verwendet den „äußeren Zaun“ von Tukey, um Ausreißer als Punkte zu definieren, die mehr als das Dreifache des Quartilbereichs über dem 75. oder unter dem 25. Perzentilpunkt liegen.
- Daten wie „Höchster Bildungsabschluss“ oder „Endgültige Ordnung in einem Marathon“ sind eindeutig ordinal. Obwohl Likert-Skalen (wie eine Skala von 1 bis 7, bei der 1 sehr unzufrieden und 7 sehr zufrieden ist) technisch ordinal sind, ist es in den Sozialwissenschaften üblich, sie so zu behandeln, als seien sie kontinuierlich (d. h. mit einem nicht eingestuften t-Test).
Regression
Es gibt zwei Hauptarten von Regressionsläufen in Stats iQ. Wenn die Ausgabevariable eine Zahlenvariable ist, führt Stats iQ eine lineare Regression aus. Wenn die Ausgabevariable eine Kategorievariable ist, führt Stats iQ eine logistische Regression aus. Die Standardausgabe für eine lineare Regression ist eine Kombination aus der relativen Wichtigkeit (insbesondere der relativen Gewichtungen von Johnson) und den ordentlichen kleinsten Quadraten. Bei der Ausführung der Regression “Ordinary Least Squares” verwendet Stats iQ die Variation “M-Estimation”, eine modernere Technik, die die Wirkung von Ausreißern dämpft und zu genaueren Ergebnissen führt.
Weitere Informationen finden Sie unter Regression und relative Wichtigkeit.