Passer au contenu principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Hypothèses de test statistique et détails techniques


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ sélectionne des tests statistiques dans le but de rendre les tests statistiques intuitifs et exempts d’erreurs.

Cette page décrit les thèmes principaux de l’approche de Stats iQ, et les éléments suivants décrivent des décisions spécifiques pour des tests spécifiques :

Hypothèses de base

Dans la mesure du possible, Stats iQ propose par défaut des tests qui ont moins d’hypothèses. Par exemple, les tests T d’échantillons indépendants peuvent être calculés de plusieurs façons, selon que des échantillons de même taille ou des écarts sont supposés. Stats iQ exécute le test avec le moins d’hypothèses.

De plus, Stats iQ atténue intelligemment les violations des hypothèses des tests statistiques. Par exemple, les tests t sur des échantillons relativement petits nécessitent que les données normalement distribuées soient précises. Les valeurs aberrantes ou les distributions non normales génèrent des résultats trompeurs. Chaque point de données de

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

est inférieur à chaque point de données dans

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

mais un test t indépendant sur ces groupes ne donne pas de différence statistiquement significative car la valeur aberrante 2000 ne respecte pas les hypothèses du test t. Stats iQ remarque la valeur aberrante et recommande un test T classé à la place, ce qui donne une différence très nette entre les groupes.

Classer les transformations

Stats iQ utilise fréquemment la méthode de transformation rank pour exécuter des tests non paramétriques lorsque des violations des hypothèses de test paramétrique sont détectées. La transformation de rang de Stats iQ remplace les valeurs par leur ordre de classement, par exemple

[86, 95, 40] est transformé en [2, 3, 1]

—exécute ensuite le test paramétrique typique sur les données transformées. Les valeurs liées reçoivent le rang moyen des valeurs liées, donc

[11, 35, 35, 52] devient [1, 2.5, 2.5, 4].

Le plus souvent rencontré dans la différence entre les corrélations Pearson et Spearman, les tests transformés en rank sont robustes aux distributions non normales et aux valeurs aberrantes, et sont conceptuellement plus simples que l’utilisation de tests non paramétriques légèrement plus courants.

ANOVA

Lorsque les utilisateurs sélectionnent une variable catégorique avec trois ou plusieurs groupes et une variable continue ou discrète, Stats iQ exécute une ANOVA à sens unique (test F de Welch) et une série de tests « post-hoc » par paires (tests Games-Howell). L’ANOVA à sens unique teste une relation globale entre les deux variables, et les tests par paires testent chaque paire possible de groupes pour voir si un groupe a tendance à avoir des valeurs plus élevées que l’autre.

Hypothèses de l’analyse ANOVA du test F de Welch

Stats iQ recommande un test F de Welch non classé si plusieurs hypothèses concernant les données sont conservées :

  • La taille de l’échantillon est supérieure à 10 fois le nombre de groupes dans le calcul (les groupes avec une seule valeur sont exclus) et, par conséquent, le Théorème de la limite centrale satisfait le besoin de données normalement distribuées.
  • Les données continues/discrètes contiennent peu ou pas de valeurs aberrantes.

Contrairement au test F légèrement plus courant pour les variances égales, le test F de Welch ne suppose pas que les variances des groupes comparés soient égales. En supposant des écarts égaux, on obtient des résultats moins précis lorsque les variances ne sont pas en fait égales, et ses résultats sont très similaires lorsque les variances sont réellement égales (Tomarken et Serlin, 1986).

ANOVA classée

En cas de violation des hypothèses, l’analyse ANOVA non classée peut ne plus être valide. Dans ce cas, Stats iQ recommande l’ANOVA classée (également appelée « ANOVA sur les rangs ») ; Stats iQ transforme les données (remplace les valeurs par leur ordre de classement), puis exécute la même ANOVA sur ces données transformées.

L’analyse ANOVA classée est robuste pour les valeurs aberrantes et les données non normalement distribuées. La transformation de rang est une méthode bien établie de protection contre la violation des hypothèses (une méthode « non paramétrique »), et est le plus souvent observée dans la différence entre la corrélation de Pearson et Spearman. La transformation de rang suivie par le test F de Welch est similaire au test de Kruskal-Wallis (Zimmerman, 2012).

Notez que les tailles d’effet ANOVA classées et non classées de Stats iQ (f de Cohen) sont calculées à l’aide de la valeur F du test F pour les écarts égaux.

Hypothèses du test par paire Games-Howell

Stats iQ effectue des tests Games-Howell quel que soit le résultat du test ANOVA (selon Zimmerman, 2010). Stats iQ affiche des tests par paires Games-Howell non classés ou classés en fonction des mêmes critères que ceux utilisés pour l’analyse ANOVA classée ou non classée. Ainsi, si vous voyez « ANOVA classée » dans la sortie avancée, les tests par paires seront également classés.

Le Games-Howell est essentiellement un test-t pour les variances inégales qui rend compte de la probabilité accrue de trouver des résultats statistiquement significatifs par hasard lors de l’exécution de nombreux tests par paire. Contrairement au test b de Tukey un peu plus courant, le test de Games-Howell ne suppose pas que les variances des groupes comparés soient égales. En supposant des écarts égaux, on obtient des résultats moins précis lorsque les variances ne sont pas en fait égales, et ses résultats sont très similaires lorsque les variances sont réellement égales (Howell, 2012).

Notez que si le test par paires non classé teste l’égalité des moyens des deux groupes, le test par paires classé ne teste pas explicitement les différences entre les moyens ou médians des groupes. Il teste plutôt une tendance générale d’un groupe à avoir des valeurs plus importantes que l’autre.

De plus, alors que Stats iQ n’affiche pas les résultats des tests par paire pour un groupe avec moins de 4 valeurs, ces groupes sont inclus dans le calcul des degrés de liberté pour les autres tests par paire.

Considérations supplémentaires relatives à l’analyse ANOVA

  1. Avec des tailles d’échantillon plus petites, les données peuvent toujours être inspectées visuellement pour déterminer si elles sont en fait distribuées normalement ; si c’est le cas, les résultats des tests T non classés sont toujours valides même pour les petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, donc Stats iQ recommande de classer les tests T par défaut pour les petits échantillons.
  2. Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la « clôture extérieure » de Tukey pour définir des valeurs aberrantes comme points plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou en dessous du 25e point de centile.
  3. Les données telles que le niveau d’études le plus élevé terminé ou l’ordre de fin en marathon sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 est Très insatisfait et 7 est Très satisfait) sont techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test-t non classé).

Tables de situations exceptionnelles Stats iQ

Lorsque les utilisateurs sélectionnent deux variables catégoriques, Stats iQ évalue si ces deux variables sont statistiquement liées. Stats iQ exécute le test exact de Fisher lorsque c’est possible, et sinon exécute le test du chi-carré de Pearson (généralement appelé « chi-carré »).

Chi-carré vs. Test exact de Fisher

Le test exact de Fisher est impartial chaque fois qu’il peut être exécuté, mais il est difficile de calculer si la table est supérieure à 2 x 2 ou si la taille de l’échantillon est supérieure à 10 000 (même avec un calcul moderne). Les tests du Chi-carré peuvent avoir des résultats biaisés lorsque la taille de l’échantillon est faible (techniquement, lorsque le nombre de cellules attendu est inférieur à 5).

Heureusement, les deux tests sont complémentaires dans la mesure où le test exact de Fisher est généralement facile à calculer lorsque les tests de chi-carré sont biaisés (petits échantillons), et lorsque le test exact de Fisher est difficile à calculer, le chi-carré a tendance à être non biaisé (échantillons de grande taille). Insomuch comme des tables plus grandes avec de petits échantillons peuvent toujours créer des problèmes (et Stats iQ ne peut pas exécuter un test exact de Fisher), Stats iQ alerte les utilisateurs de complications potentielles.

Résidus ajustés

Comme d’autres logiciels statistiques, Stats iQ utilise des résidus ajustés pour évaluer si une cellule individuelle est statistiquement supérieure ou inférieure aux attentes. Essentiellement, la question du résiduel ajusté est la suivante : « Est-ce que cette cellule contient plus de valeurs que je ne m’y attendais s’il n’y avait pas de relation entre ces deux variables ? »

Si les données sont affichées de telle sorte que chaque colonne affiche un total de 100 %, vous pouvez dire « La proportion de répondants financiers/bancaires qui ont déclaré « aimer leur travail » est inférieure à la moyenne, par rapport aux répondants d’autres secteurs. »

Stats iQ affiche jusqu’à 3 flèches, en fonction de la valeur P calculée à partir du résiduel ajusté. Stats iQ affichera un nombre différent de flèches en fonction du degré d’importance du résultat. Plus précisément, on montre une flèche si la valeur de p est inférieure à alpha (1 – niveau de confiance), deux flèches si la valeur de p est inférieure à alpha/5, et trois flèches si la valeur de p est inférieure à alpha/50. Par exemple, si votre niveau de confiance a été défini sur 95 % :

  • Valeur de p <= 0,05 : une flèche
  • Valeur de p <= .01 : deux flèches
  • Valeur de p <= .001 : trois flèches

Le calcul du reliquat ajusté et sa comparaison avec des niveaux alpha spécifiques peuvent être étiquetés comme un “test z” ou un “test z pour un pourcentage d’échantillon”. La littérature dit plus généralement simplement que les conclusions étaient basées sur des résidus ajustés.

Intervalles de confiance

Pour tous les intervalles de confiance binomiaux, y compris les tableaux de contingence et dans les diagrammes à barres de Catégorie Décrire, Stats iQ calcule l’intervalle de confiance à l’aide de l’intervalle du score Wilson.

Corrélations Stats iQ

Lorsque les utilisateurs sélectionnent deux variables continues ou discrètes, Stats iQ exécute une corrélation pour évaluer si ces deux groupes sont statistiquement liés. Stats iQ calcule par défaut le r de Pearson, le type de corrélation le plus courant ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test, calculant le rho de Spearman. En outre, Stats iQ utilise la transformation Fisher pour calculer les intervalles de confiance pour le coefficient de corrélation.

Hypothèses relatives à la r de Pearson

Stats iQ recommande le r de Pearson comme mesure valide de corrélation si certaines hypothèses concernant les données sont satisfaites :

  • Il n’y a pas de valeurs aberrantes dans les données continues/discrètes.
  • La relation entre les variables est linéaire (par exemple, y = 2x, et non y = x^2).

Stats iQ n’affiche pas une ligne de la meilleure adaptation lorsqu’il détecte une violation de ces hypothèses.

Corrélation classée (Rho de Spearman)

Lorsque les hypothèses sont violées, le r de Pearson n’est peut-être plus une mesure valide de corrélation. Dans ce cas, Stats iQ recommande le rho de Spearman ; Stats iQ transforme les données (remplace les valeurs par leur ordre de classement) puis exécute la corrélation typique. La transformation de rang est une méthode bien établie de protection contre la violation d’hypothèse (une méthode « non paramétrique »), et la transformation de rang de Pearson à Spearman est la plus courante (Conover et Iman, 1981). Notez que le rho de Spearman suppose toujours que la relation entre les variables est monotone.

Considérations supplémentaires pour les corrélations

  1. Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la « clôture extérieure » de Tukey pour définir des valeurs aberrantes comme points plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou en dessous du 25e point de centile.
  2. Stats iQ identifie une relation comme non linéaire lorsque le rho de Spearman > 1.1 * Le r de Pearson et le rho de Spearman sont statistiquement significatifs.
  3. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 est Très insatisfait et 7 est Très satisfait) sont techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire en utilisant le r de Pearson).

Tests T Stats iQ

Lorsque les utilisateurs souhaitent relier une variable binaire à une variable continue ou discrète, Stats iQ exécute un test T à deux queues (tous les tests statistiques dans Qualtrics sont à deux queues, le cas échéant) pour déterminer si l’un des deux groupes a tendance à avoir des valeurs plus élevées que l’autre pour la variable continue/discrète. Stats iQ utilise par défaut le test T de Welch, également connu sous le nom de test T pour les écarts inégaux ; si les hypothèses de ce test ne sont pas satisfaites, Stats iQ recommande une version classée du même test.

Hypothèses du T-Test de Welch

Stats iQ recommande le test T de Welch (ci-après le « test T ») si plusieurs hypothèses concernant les données sont conservées :

  • La taille de l’échantillon de chaque groupe est supérieure à 15 (et, par conséquent, le théorème de la limite centrale satisfait le besoin en données normalement distribuées).
  • Les données continues/discrètes contiennent peu ou pas de valeurs aberrantes.

Contrairement au test T légèrement plus courant pour les variances égales, le test t de Welch ne suppose pas que les écarts des deux groupes comparés soient égaux. L’informatique moderne a rendu cette hypothèse inutile. En outre, en supposant que les écarts égaux conduisent à des résultats moins précis lorsque les écarts ne sont pas égaux, et ses résultats ne sont pas plus précis lorsque les variances sont réellement égales (Ruxton, 2006).

Test T classé

En cas de violation des hypothèses, le test T peut ne plus être valide. Dans ce cas, Stats iQ recommande le test T classé ; Stats iQ transforme les données (remplace les valeurs par leur ordre de classement), puis exécute le test t de Welch sur ces données transformées. Le test T classé est robuste pour les valeurs aberrantes et les données non normalement distribuées. La transformation de rang est une méthode bien établie de protection contre la violation d’hypothèse (une méthode « non paramétrique »), et est le plus souvent observée dans la différence entre la corrélation de Pearson et Spearman (Conover et Iman, 1981). La transformation de rang suivie par le test t de Welch est similaire en effet au test U de Mann-Whitney, mais un peu plus efficace (Ruxton, 2006; Zimmerman, 2012).

Notez que si le test t teste l’égalité des moyens des deux groupes, le test-t classé ne teste pas explicitement les différences entre les moyens ou médians des groupes. Il teste plutôt une tendance générale d’un groupe à avoir des valeurs plus importantes que l’autre.

Autres considérations pour les tests T

  1. Avec des échantillons de taille inférieure à 15, les données peuvent toujours être inspectées visuellement pour déterminer si elles sont normalement distribuées ; si c’est le cas, les résultats des tests T non classés sont toujours valides même pour les petits échantillons. Dans la pratique, cette évaluation peut être difficile à réaliser, donc Stats iQ recommande de classer les tests T par défaut pour les petits échantillons.
  2. Avec des échantillons de plus grande taille, les valeurs aberrantes sont moins susceptibles d’affecter négativement les résultats. Stats iQ utilise la « clôture extérieure » de Tukey pour définir des valeurs aberrantes comme points plus de 3 fois l’intervalle intra-quartile au-dessus du 75e ou en dessous du 25e point de centile.
  3. Les données telles que « Niveau d’éducation le plus élevé terminé » ou « Ordre de fin dans un marathon » sont sans ambiguïté ordinales. Bien que les échelles de Likert (comme une échelle de 1 à 7 où 1 est Très insatisfait et 7 est Très satisfait) sont techniquement ordinales, il est courant en sciences sociales de les traiter comme si elles étaient continues (c’est-à-dire avec un test-t non classé).

Régression

Il existe deux principaux types d’exécution de régression dans Stats iQ. Si la variable de sortie est une variable numérique, Stats iQ exécutera une régression linéaire. Si la variable de sortie est une variable de catégorie, Stats iQ exécutera une régression logistique. Le résultat par défaut d’une régression linéaire est une combinaison d’ Importance relative (en particulier, les pondérations relatives de Johnson) et des moindres carrés ordinaires. Lors de l’exécution d’une régression “Ordinary Least Squares”, Stats iQ utilise la variante appelée “M-estimation”, qui est une technique plus moderne qui amortit l’effet des valeurs aberrantes, conduisant à des résultats plus précis.

Pour en savoir plus, voir Régression et importance relative.

FAQ

De nombreuses pages de ce site ont été traduites de l'anglais en traduction automatique. Chez Qualtrics, nous avons accompli notre devoir de diligence pour trouver les meilleures traductions automatiques possibles. Toutefois, le résultat ne peut pas être constamment parfait. Le texte original en anglais est considéré comme la version officielle, et toute discordance entre l'original et les traductions automatiques ne pourra être considérée comme juridiquement contraignante.