Hypothèses des tests statistiques et détails techniques

Suite

Customer Experience Employee Experience Strategy & Research

Produit

Qualtrics

Contenus de cette page

Stats iQ sélectionne des tests statistiques dans le but de rendre les tests statistiques intuitifs et sans erreur.

Cette page décrit les thèmes généraux de l’approche de Stats iQ, et les suivantes décrivent des décisions spécifiques pour des tests particuliers :

Hypothèses de base

Dans la mesure du possible, Stats iQ propose par défaut des tests comportant moins d’hypothèses. Par exemple, les tests t pour échantillons indépendants peuvent être calculés de plusieurs manières, selon que l’on suppose des échantillons ou des variances de taille égale. Stats iQ effectue le test avec le moins d’hypothèses possible.

En outre, Stats iQ atténue intelligemment les violations des hypothèses des tests statistiques. Par exemple, les tests t sur des échantillons relativement petits nécessitent des données normalement distribuées pour être exacts. Les valeurs aberrantes ou les distributions non normales créent des résultats trompeurs. Chaque point de données de

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

est inférieur à chaque point de données de

[11, 12, 13, 13, 14, 14, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

mais un test t d’échantillons indépendants sur ces groupes ne donne pas de différence statistiquement significative parce que la valeur aberrante 2000 viole les hypothèses du test t. Stats iQ remarque la valeur aberrante et recommande à la place un test t classé, qui produit une différence très nette entre les groupes.

Transformations de rangs

Stats iQ utilise fréquemment la méthode de transformation des rangs pour exécuter des tests non paramétriques lorsque des violations des hypothèses des tests paramétriques sont détectées. La transformation de rang de Stats iQ remplace les valeurs par leur ordre de classement – par exemple

[86, 95, 40] est transformé en [2, 3, 1]

– puis exécute le test paramétrique typique sur les données transformées. Les valeurs ex æquo se voient attribuer le rang moyen des valeurs ex æquo, de sorte que

[11, 35, 35, 52] devient [1, 2,5, 2,5, 4].

Le plus souvent rencontrés dans la différence entre les corrélations de Pearson et de Spearman, les tests transformés par le rang sont robustes aux distributions non normales et aux valeurs aberrantes, et sont conceptuellement plus simples que l’utilisation de tests non paramétriques légèrement plus courants.

ANOVA

Lorsque les utilisateurs sélectionnent une variable catégorielle avec 3 groupes ou plus et une variable continue ou discrète, Stats iQ exécute une ANOVA à sens unique (test F de Welch) et une série de tests “post hoc” par paire (tests de Games-Howell). L’ANOVA à sens unique teste l’existence d’un lien global entre les deux variables, et les tests par paires testent chaque paire possible de groupes pour voir si un groupe a tendance à avoir des valeurs plus élevées que l’autre.

Hypothèses du test F de Welch ANOVA

Stats iQ recommande un test F de Welch non classé si plusieurs hypothèses concernant les données sont valables :

La taille de l’échantillon est supérieure à 10 fois le nombre de groupes dans le calcul (les groupes ne comportant qu’une seule valeur sont exclus), et le théorème central limite satisfait donc à l’exigence de données normalement distribuées.
Les données continues/discrètes présentent peu ou pas de valeurs aberrantes.

Contrairement au test F légèrement plus courant pour des variances égales, le test F de Welch ne suppose pas que les variances des groupes comparés sont égales. L’hypothèse de variances égales conduit à des résultats moins précis lorsque les variances ne sont pas en fait égales, et ses résultats sont très similaires lorsque les variances sont en fait égales (Tomarken et Serlin, 1986).

ANOVA classée

Lorsque les hypothèses ne sont pas respectées, l’ANOVA non classée peut ne plus être valide. Dans ce cas, Stats iQ recommande l’ANOVA par classement (également appelée “ANOVA sur les classements”) ; Stats iQ transforme les données par classement (remplace les valeurs par leur ordre de classement) et exécute ensuite la même ANOVA sur ces données transformées.

L’ANOVA classée est résistante aux valeurs aberrantes et aux données distribuées de manière non normale. La transformation des rangs est une méthode bien établie de protection contre la violation des hypothèses (une méthode “non paramétrique”), et est le plus souvent observée dans la différence entre la corrélation de Pearson et la corrélation de Spearman. La transformation des rangs suivie du test F de Welch a un effet similaire au test de Kruskal-Wallis (Zimmerman, 2012).

La taille de l’effet indique si la différence entre les moyennes des groupes est suffisamment importante pour avoir une signification pratique, si elle est statistiquement significative ou non. Notez que les tailles d’effet (f de Cohen) des ANOVA classées et non classées de Stats iQ sont calculées à l’aide de la valeur F du test F pour des variances égales.

Hypothèses du test des paires de Games-Howell

Stats iQ exécute les tests de Games-Howell quel que soit le résultat du test ANOVA (conformément à Zimmerman, 2010). Stats iQ affiche les tests par paires de Games-Howell, classés ou non, sur la base des mêmes critères que ceux utilisés pour l’ANOVA classée ou non classée ; ainsi, si vous voyez “ANOVA classée” dans la sortie avancée, les tests par paires seront également classés.

Le test de Games-Howell est essentiellement un test t pour des variances inégales qui tient compte de la probabilité accrue de trouver des résultats statistiquement significatifs par hasard lors de l’exécution de nombreux tests par paires. Contrairement au test b de Tukey, légèrement plus courant, le test de Games-Howell ne suppose pas que les variances des groupes comparés sont égales. L’hypothèse de variances égales conduit à des résultats moins précis lorsque les variances ne sont en fait pas égales, et ses résultats sont très similaires lorsque les variances sont effectivement égales (Howell, 2012).

Notez que si le test de paires non classées teste l’égalité des moyennes des deux groupes, le test de paires classées ne teste pas explicitement les différences entre les moyennes ou les médianes des groupes. Elle teste plutôt la tendance générale d’un groupe à avoir des valeurs plus élevées que l’autre.

En outre, bien que Stats iQ n’affiche pas les résultats des tests par paire pour tout groupe comportant moins de 4 valeurs, ces groupes sont inclus dans le calcul des degrés de liberté pour les autres tests par paire.

Autres considérations sur l’ANOVA

Avec des échantillons plus petits, les données peuvent toujours être inspectées visuellement pour déterminer si elles sont en fait normalement distribuées ; si c’est le cas, les résultats du test t non classé sont toujours valables, même pour de petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, c’est pourquoi Stats iQ recommande les tests t classés par défaut pour les petits échantillons.

Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la “clôture extérieure” de Chronomètre pour définir les valeurs aberrantes comme des points situés à plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou au-dessous du 25e point de percentile.

Des données telles que le niveau d’éducation le plus élevé atteint ou l’ordre d’arrivée au marathon sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 correspond à ” Très insatisfait ” et 7 à ” Très satisfait“) soient techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test t non classé).

Tables de contingence de Stats iQ

Lorsque les utilisateurs sélectionnent deux variables catégorielles, Stats iQ évalue si ces deux variables sont statistiquement liées. Stats iQ utilise le test exact de Fisher lorsque cela est possible, et sinon le test du chi-carré de Pearson (généralement appelé “chi-carré”).

Khi-deux vs. Test exact de Fisher

Le test exact de Fisher est sans biais chaque fois qu’il peut être exécuté, mais il est difficile à calculer si le tableau est plus grand que 2 x 2 ou si la taille de l’échantillon est supérieure à 10 000 (même avec l’informatique moderne). Les tests du Khi-deux peuvent donner des résultats biaisés lorsque la taille des échantillons est faible (techniquement, lorsque le nombre de cellules attendues est inférieur à 5).

Heureusement, les deux tests sont complémentaires en ce sens que le test exact de Fisher est généralement facile à calculer lorsque les tests du chi-carré sont biaisés (petits échantillons), et lorsque le test exact de Fisher est difficile à calculer, le chi-carré tend à ne pas être biaisé (grands échantillons). Dans la mesure où des tableaux plus grands avec de petits échantillons peuvent encore poser des problèmes (et où Stats iQ ne peut pas effectuer un test exact de Fisher), Stats iQ avertit les utilisateurs des complications potentielles.

Résidus ajustés

Comme d’autres logiciels statistiques, Stats iQ utilise les résidus ajustés pour évaluer si une cellule individuelle est significativement supérieure ou inférieure aux attentes sur le plan statistique. En substance, le résidu ajusté pose la question suivante : “Cette cellule contient-elle plus de valeurs que ce à quoi je m’attendrais s’il n’y avait pas de lien entre ces deux variables ?”

Si les données sont affichées de manière à ce que chaque colonne soit égale à 100 %, vous pouvez dire : “La proportion de personnes interrogées dans le secteur de la finance et de la banque qui ont déclaré “aimer leur travail” est inférieure à la moyenne, par rapport aux personnes interrogées dans d’autres secteurs d’activité

Stats iQ affiche jusqu’à 3 flèches, en fonction de la valeur p calculée à partir du résidu ajusté. Stats iQ affichera un nombre différent de flèches en fonction du degré de signification du résultat. Niveau, nous montrons 1 flèche si la valeur p est inférieure à alpha (1 – niveau de confiance), 2 flèches si la valeur p est inférieure à alpha/5, et 3 flèches si la valeur p est inférieure à alpha/50. Par exemple, si votre niveau de confiance a été défini sur 95 % :

valeur p <= .05 : 1 flèche
valeur p <= .01 : 2 flèches
valeur p <= .001 : 3 flèches

Le calcul du résidu ajusté et sa comparaison à des niveaux alpha spécifiques peuvent être qualifiés de “test z” ou de “test z pour un pourcentage d’échantillon” La littérature se contente le plus souvent d’indiquer que les conclusions sont basées sur des résidus ajustés.

Intervalles de confiance

Pour tous les intervalles de confiance binomiaux, y compris les tableaux de contingence et dans les diagrammes à barres de Diagramme Notation, Stats iQ calcule l’intervalle de confiance à l’aide de l’intervalle de notation de Wilson.

Corrélations Stats iQ

Lorsque les utilisateurs sélectionnent deux variables continues ou discrètes, Stats iQ effectue une corrélation pour évaluer si ces deux groupes sont statistiquement liés. Stats iQ calcule par défaut le r de Pearson, le type de corrélation le plus courant ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test, en calculant le rho de Spearman. En outre, Stats iQ utilise la transformation de Fisher pour calculer les intervalles de confiance du coefficient de corrélation.

Hypothèses du r de Pearson

Stats iQ recommande le r de Pearson comme mesure valide de la corrélation si certaines hypothèses concernant les données sont respectées :

Il n’y a pas de valeurs aberrantes dans les données continues/discrètes.
Le lien entre les variables est linéaire (par exemple, y = 2x, et non y = x^2).

Stats iQ n’affiche pas de ligne de meilleure adéquation lorsqu’il détecte une violation de ces hypothèses.

Corrélation classée (Rho de Spearman)

Lorsque les hypothèses ne sont pas respectées, le r de Pearson peut ne plus être une mesure valide de la corrélation. Dans ce cas, Stats iQ recommande le rho de Spearman ; Stats iQ effectue une transformation de rang des données (remplace les valeurs par leur ordre de classement) puis exécute la corrélation typique. La transformation des rangs est une méthode bien établie pour se protéger contre la violation des hypothèses (méthode “non paramétrique”), et la transformation des rangs de Pearson en Spearman est la plus courante (Conover et Iman, 1981). Notez que le rho de Spearman suppose toujours que le lien entre les variables est monotone.

Considérations supplémentaires pour les corrélations

Stats iQ identifie un lien comme non linéaire lorsque le rho de Spearman &gt ; 1.1 * Le r de Pearson et le rho de Spearman sont statistiquement significatifs.

Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 correspond à “Très insatisfait” et 7 à “Très satisfait”) soient techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire en utilisant le r de Pearson).

Test T sur échantillons indépendants

Ce test t non classé est la forme la plus courante de test t. La signification statistique d’un test t indique si la différence entre les moyennes de deux groupes reflète très probablement une différence “réelle” dans la population à partir de laquelle les groupes ont été échantillonnés.

Un résultat de test t statistiquement significatif est un résultat dans lequel il est peu probable qu’une différence entre deux groupes se soit produite par accident ou au hasard. La signification statistique est déterminée par l’importance de la différence entre les moyennes des groupes, la taille de l’échantillon et les écarts types des groupes. À des fins pratiques, la signification statistique suggère que les deux populations à partir desquelles nous échantillonnons sont réellement différentes.

Exemple : Supposons que vous souhaitiez savoir si l’Américain moyen dépense plus que le Canadien moyen en films par mois. Vous interrogez un échantillon de 3 personnes de chaque pays sur leurs dépenses en matière de cinéma. Vous pouvez observer une différence entre ces moyennes, mais cette différence n’est pas statistiquement significative ; c’est peut-être le hasard des personnes que vous avez échantillonnées au hasard qui fait qu’un groupe semble dépenser plus d’argent que l’autre. Si, au contraire, vous interrogez 300 Américains et 300 Canadiens et que vous constatez toujours une grande différence, il est moins probable que cette différence soit due au fait que l’échantillon n’est pas représentatif.

Notez que si vous posiez la question à 300 000 Américains et 300 000 Canadiens, le résultat serait probablement statistiquement significatif même si la différence entre les groupes n’était que d’un centime. La taille de l’effet du test t complète sa signification statistique, en décrivant l’ampleur de la différence, que celle-ci soit statistiquement significative ou non.

Test T de Welch

Lorsque les utilisateurs souhaitent établir un lien entre une variable binaire et une variable continue ou discrète, Stats iQ effectue un test t bilatéral (tous les tests statistiques dans Qualtrics sont bilatéraux, le cas échéant) afin d’évaluer si l’un des deux groupes a tendance à avoir des valeurs plus élevées que l’autre pour la variable continue/discrète. Stats iQ utilise par défaut le test t de Welch, également connu sous le nom de test t pour les variances inégales ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test.

Hypothèses du test T de Welch

Stats iQ recommande le test t de Welch (ci-après “test t”) si plusieurs hypothèses concernant les données sont valables :

La taille de l’échantillon de chaque groupe est supérieure à 15 (et le théorème de la limite centrale satisfait donc à l’exigence de données normalement distribuées).
Les données continues/discrètes présentent peu ou pas de valeurs aberrantes.

Contrairement au test t légèrement plus courant pour des variances égales, le test t de Welch ne suppose pas que les variances des deux groupes comparés sont égales. L’informatique moderne a rendu cette hypothèse inutile. En outre, l’hypothèse de variances égales conduit à des résultats moins précis lorsque les variances ne sont pas égales, et ses résultats ne sont pas plus précis lorsque les variances sont effectivement égales (Ruxton, 2006).

Test T classé

Lorsque les hypothèses ne sont pas respectées, le test t peut ne plus être valide. Dans ce cas, Stats iQ recommande le test t classé ; Stats iQ transforme les données par rang (remplace les valeurs par leur ordre de classement) et exécute ensuite le même test t de Welch sur ces données transformées. Le test t classé est robuste aux valeurs aberrantes et aux données distribuées de manière non normale. La transformation des rangs est une méthode bien établie de protection contre la violation des hypothèses (méthode “non paramétrique”), et elle est le plus souvent observée dans la différence entre la corrélation de Pearson et la corrélation de Spearman (Conover et Iman, 1981). La transformation des rangs suivie du test t de Welch a un effet similaire au test U de Mann-Whitney, mais un peu plus efficace (Ruxton, 2006 ; Zimmerman, 2012).

Notez que si le test t teste l’égalité des moyennes des deux groupes, le test t classé ne teste pas explicitement les différences entre les moyennes ou les médianes des groupes. Elle teste plutôt la tendance générale d’un groupe à avoir des valeurs plus élevées que l’autre.

Autres considérations pour les tests T

Avec des tailles d’échantillon inférieures à 15, les données peuvent encore être inspectées visuellement pour déterminer si elles sont normalement distribuées ; si c’est le cas, les résultats du test t non classé sont toujours valables, même pour de petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, c’est pourquoi Stats iQ recommande les tests t classés par défaut pour les petits échantillons.

Des données telles que “le niveau d’éducation le plus élevé atteint” ou “l’ordre d’arrivée dans un marathon” sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 correspond à “Très insatisfait” et 7 à “Très satisfait”) soient techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test t non classé).

Régression

Il existe deux types principaux de régression dans Stats iQ. Si la variable de sortie est une variable numérique, Stats iQ effectuera une régression linéaire. Si la variable de sortie est une variable catégorielle, Stats iQ effectuera une régression logistique. Le résultat par défaut d’une régression linéaire est une combinaison de l’importance relative (en particulier, les pondérations relatives de Johnson) et des moindres carrés ordinaires. Lors de l’exécution d’une régression par les moindres carrés ordinaires, Stats iQ utilise la variante appelée “M-estimation”, une technique plus moderne qui atténue l’effet des valeurs aberrantes, ce qui permet d’obtenir des résultats plus précis.

Pour en savoir plus, voir Régression &amp ; Importance relative.

FAQs

Comment créer une variable Stats iQ ?

Vous pouvez créer une variable en cliquant sur Créer ou nettoyer une variable dans le coin inférieur gauche de votre espace de travail. Pour en savoir plus, consultez la page de support sur la création de variables.

Quelles sont les options d'analyse de mes données dans Stats iQ ?

Stats iQ propose quatre options pour analyser les données :

Décrire : en sélectionnant une variable dans la liste, puis en cliquant sur Décrire, vous obtiendrez une visualisation des données contenues dans cette variable. Utilisez cette option lorsque vous souhaitez voir comment les données d'une variable donnée sont distribuées.
Relier : la sélection de deux variables, puis le fait de cliquer sur Relier entraînent l'exécution d'une analyse statistique de la relation entre les deux variables. Utilisez cette méthode lorsque vous souhaitez savoir à quel point deux variables sont fortement corrélées.
Tableau croisé dynamique : la sélection de deux variables ou plus et le fait de cliquer sur Tableau croisé dynamique créent un tableau qui affiche les valeurs des variables sous forme de lignes et de colonnes. Les cellules peuvent être définies pour afficher une variété d'informations différentes, notamment le pourcentage de colonne et de ligne, le total et l'écart. Utilisez cette catégorie lorsque vous souhaitez comparer le chevauchement entre des valeurs spécifiques d'un ensemble de variables.
Régression : en sélectionnant deux variables et en cliquant sur Régression, vous obtiendrez la relation mathématique entre les variables. Utilisez cette catégorie lorsque vous souhaitez prédire des valeurs pour une variable en fonction des valeurs d'une autre variable.
Cluster : la sélection de deux à dix variables démographiques et le fait de cliquer sur Cluster afficheront les groupes de caractéristiques les plus susceptibles de se produire ensemble, révélant ainsi les segments de population capturés dans vos données.

Je ne sais pas ce que signifie ce terme statistique. Pouvez-vous me le dire ?

Essais statistiques : L'ANOVA, le test T et le Chi-carré sont tous des tests statistiques que Stats iQ effectue pour tester si la relation entre deux variables est significative ou non. Ces tests sont utilisés pour générer une Valeur P.
Valeur P : Cette valeur représente la probabilité que les résultats observés soient vus si aucune corrélation n'existe entre les variables. Une P-Value inférieure signifie plus de données corrélées.
Taille de l'effet : la taille de l'effet est une mesure de l'importance de la corrélation entre deux variables. Il est mesuré de différentes manières en fonction du type de test statistique effectué. Par exemple, Cohen's d, Pearson's r et Cramer's v. Plus la valeur de la taille de l'effet est grande, plus les variables sont corrélées.

Pour plus d’informations, consultez la page d’assistance Hypothèses de test statistique et détails techniques.

Comment puis-je filtrer les données qui apparaissent dans Stats iQ ?

Vous pouvez filtrer les données qui apparaissent dans Stats iQ à deux niveaux différents : sur des cartes individuelles et sur l'espace de travail global. Vous trouverez des instructions à ce sujet sur la page Filtrage des données pour Stats iQ.

Comment puis-je obtenir mes nouvelles réponses pour les afficher dans Stats iQ ?

Dans Stats iQ, cliquez sur le bouton Paramètres et sélectionnez Importer les données les plus récentes. Cela importera toutes les nouvelles réponses dans Stats iQ et les inclura dans votre analyse.

Comment les cartes d'analyse sont-elles classées dans mon espace de travail Stats iQ ?

Les cartes d'analyse sont automatiquement classées de manière à afficher les résultats les plus significatifs sur le plan statistique. Vous pouvez modifier l'ordre dans lequel les variables apparaissent dans le jeu de données en accédant au menu Options d'analyse.

Qu'est-ce que Stats iQ ? / Où se trouve Statwing ?

Stats iQ est le nouveau nom de Statwing. Vous pouvez trouver Stats iQ en accédant à n’importe quel projet, en accédant à Données et analyse et en sélectionnant Stats iQ.

Que faire si mes données ne se chargent pas correctement ?

Assurez-vous d'avoir chargé votre jeu de données actuel en cliquant sur Importer les dernières données dans Stats iQ. Si vos données ne se chargent toujours pas correctement, veuillez contacter le support technique de Qualtrics.

De nombreuses pages de ce site ont été traduites de l'anglais en traduction automatique. Chez Qualtrics, nous avons accompli notre devoir de diligence pour trouver les meilleures traductions automatiques possibles. Toutefois, le résultat ne peut pas être constamment parfait. Le texte original en anglais est considéré comme la version officielle, et toute discordance entre l'original et les traductions automatiques ne pourra être considérée comme juridiquement contraignante.

Est-ce que cela vous a aidé?

Les commentaires que vous soumettez ici sont utilisés uniquement pour aider à améliorer cette page.

C'est génial! Merci pour votre avis!

Merci pour votre avis!