Saltar al contenido principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Supuestos de pruebas estadísticas y detalles técnicos


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ selecciona pruebas estadísticas con el objetivo de que las pruebas estadísticas sean intuitivas y libres de errores.

En esta página se describen los temas generales del enfoque de Stats iQ y a continuación se describen decisiones específicas para pruebas específicas:

Suposiciones Básicas

Siempre que sea posible, Stats iQ toma por defecto las pruebas que tienen menos supuestos. Por ejemplo, las pruebas t de muestras independientes se pueden calcular de varias maneras, dependiendo de si se asumen muestras o desviaciones de igual tamaño. Stats iQ ejecuta la prueba con los menos supuestos.

Además, Stats iQ mitiga inteligentemente las violaciones de las suposiciones de las pruebas estadísticas. Por ejemplo, las pruebas t en muestras relativamente pequeñas requieren datos normalmente distribuidos para ser exactos. Los valores atípicos o las distribuciones no normales crean resultados engañosos. Cada punto de datos de

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

es inferior a cada punto de datos en

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

pero una prueba t de muestras independientes en esos grupos no arroja una diferencia estadísticamente significativa porque el valor atípico 2000 infringe las hipótesis de la prueba t. Stats iQ observa el valor atípico y recomienda una prueba T clasificada en su lugar, lo que produce una diferencia muy clara entre los grupos.

Clasificar transformaciones

Stats iQ utiliza frecuentemente el método de transformación de rango para ejecutar pruebas no paramétricas cuando se detectan violaciones de supuestos de prueba paramétrica. La transformación de clasificación de Stats iQ sustituye los valores por su orden de clasificación, por ejemplo

[86, 95, 40] se transforma en [2, 3, 1]

—luego ejecuta la prueba paramétrica típica en los datos transformados. Los valores vinculados reciben la clasificación media de los valores vinculados, por lo que

[11, 35, 35, 52] pasa a ser [1, 2.5, 2.5, 4].

Más comúnmente encontrado en la diferencia entre las correlaciones de Pearson y Spearman, las pruebas transformadas en rangos son robustas a distribuciones no normales y valores atípicos, y son conceptualmente más simples que el uso de pruebas no paramétricas un poco más comunes.

ANOVA

Cuando los usuarios seleccionan una variable categórica con tres o más grupos y una variable continua o discreta, Stats iQ ejecuta un ANOVA unidireccional (prueba F de Welch) y una serie de pruebas “post hoc” por parejas (pruebas Games-Howell). El ANOVA unidireccional prueba una relación global entre las dos variables, y las pruebas por pares prueban cada par posible de grupos para ver si un grupo tiende a tener valores más altos que el otro.

Supuestos del ensayo F ANOVA de Welch

Stats iQ recomienda una prueba F de Welch no clasificada si existen varias suposiciones sobre los datos:

  • El tamaño de la muestra es superior a 10 veces el número de grupos en el cálculo (se excluyen los grupos con solo un valor) y, por lo tanto, el teorema del límite central satisface el requisito para los datos distribuidos normalmente.
  • Hay pocos valores atípicos o ninguno en los datos continuos/discretos.

A diferencia de la prueba F ligeramente más común para variaciones iguales, la prueba F de Welch no asume que las varianzas de los grupos que se están comparando son iguales. Suponiendo desviaciones iguales se obtienen resultados menos precisos cuando las desviaciones no son en realidad iguales, y sus resultados son muy similares cuando las desviaciones son realmente iguales (Tomarken y Serlin, 1986).

ANOVA clasificado

Cuando se violan supuestos, es posible que el ANOVA no clasificado ya no sea válido. En ese caso, Stats iQ recomienda el ANOVA clasificado (también llamado “ANOVA en rangos”); Stats iQ rank-transforma los datos (reemplaza valores por su orden de clasificación) y luego ejecuta el mismo ANOVA en los datos transformados.

El ANOVA clasificado es robusto para valores atípicos y datos no distribuidos normalmente. La transformación de rango es un método bien establecido para proteger contra la violación de suposiciones (un método “no paramétrico”), y es más comúnmente visto en la diferencia entre Pearson y Spearman correlación. La transformación de rango seguida por la prueba F de Welch es similar en efecto a la prueba de Kruskal-Wallis (Zimmerman, 2012).

Tenga en cuenta que los tamaños de efecto ANOVA clasificados y no clasificados de Stats iQ (Cohen’s f) se calculan utilizando el valor F de la prueba F para variaciones iguales.

Supuestos de la prueba por pares Games-Howell

Stats iQ ejecuta pruebas Games-Howell independientemente del resultado de la prueba ANOVA (según Zimmerman, 2010). Stats iQ muestra las pruebas por parejas de Games-Howell no clasificadas o clasificadas según los mismos criterios que las utilizadas para ANOVA clasificado vs. no clasificado; por lo tanto, si ve “ANOVA clasificado” en el resultado avanzado, también se clasificarán las pruebas por parejas.

El Games-Howell es esencialmente una prueba t para variaciones desiguales que dan cuenta de la mayor probabilidad de encontrar resultados estadísticamente significativos por casualidad cuando se ejecutan muchas pruebas por pares. A diferencia de la prueba b de Tukey un poco más común, la prueba de Games-Howell no asume que las varianzas de los grupos que se comparan son iguales. Suponiendo desviaciones iguales se obtienen resultados menos precisos cuando las desviaciones no son, de hecho, iguales, y sus resultados son muy similares cuando las desviaciones son realmente iguales (Howell, 2012).

Tenga en cuenta que mientras que las pruebas de comprobación por pares no clasificadas para la igualdad de los medios de los dos grupos, la prueba por pares clasificados no prueba explícitamente las diferencias entre los medios o medios de los grupos. Más bien, prueba una tendencia general de un grupo a tener valores más grandes que el otro.

Además, aunque Stats iQ no muestra los resultados de las pruebas por parejas para ningún grupo con menos de 4 valores, esos grupos se incluyen en el cálculo de los grados de libertad para las otras pruebas por parejas.

Consideraciones ANOVA adicionales

  1. Con tamaños de muestra más pequeños, los datos aún se pueden inspeccionar visualmente para determinar si de hecho se distribuyen normalmente; si es así, los resultados de la prueba T no clasificada siguen siendo válidos incluso para muestras pequeñas. En la práctica, esta evaluación puede ser difícil de realizar, por lo que Stats iQ recomienda realizar pruebas T clasificadas de forma predeterminada para muestras pequeñas.
  2. Con tamaños de muestra más grandes, es menos probable que los valores atípicos afecten negativamente a los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir valores atípicos como puntos más de 3 veces el rango intracuartil por encima del 75 o por debajo del punto del percentil 25.
  3. Los datos como el nivel más alto de educación completado o el orden de finalización en maratón son inequívocamente ordinales. Aunque las escalas de Likert (como una escala del 1 al 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, con una prueba t no clasificada).

Tablas de contingencia de Stats iQ

Cuando los usuarios seleccionan dos variables categóricas, Stats iQ evalúa si esas dos variables están relacionadas estadísticamente. Stats iQ ejecuta la prueba exacta de Fisher cuando es posible, y de lo contrario ejecuta la prueba de chi-cuadrado de Pearson (típicamente llamada “chi-cuadrado”).

Chi cuadrado vs. Prueba exacta de Fisher

La prueba exacta de Fisher es imparcial siempre que se puede ejecutar, pero es computacionalmente difícil de ejecutar si la tabla es mayor de 2 x 2 o el tamaño de la muestra es mayor de 10.000 (incluso con computación moderna). Las pruebas de chi-cuadrado pueden tener resultados sesgados cuando los tamaños de las muestras son bajos (técnicamente, cuando los recuentos de células esperados están por debajo de 5).

Afortunadamente, las dos pruebas son complementarias en que la prueba exacta de Fisher es típicamente fácil de calcular cuando las pruebas de chi-cuadrado son sesgadas (muestras pequeñas), y cuando la prueba exacta de Fisher es difícil de calcular, el chi-cuadrado tiende a ser imparcial (muestras grandes). Insomuch, ya que las tablas más grandes con muestras pequeñas todavía pueden crear problemas (y Stats iQ no puede ejecutar una prueba exacta de Fisher), Stats iQ alerta a los usuarios de posibles complicaciones.

Residuos ajustados

Al igual que otro software estadístico, Stats iQ utiliza residuos ajustados para evaluar si una celda individual está estadísticamente significativamente por encima o por debajo de las expectativas. Básicamente, el residual ajustado pregunta: “¿Esta celda tiene más valores de los que esperaría si no hubiera relación entre estas dos variables?”

Si los datos se muestran de tal manera que cada columna suma el 100%, puede decir “La proporción de encuestados de Finanzas/Banca que dijeron que les encanta su trabajo” es menor que el típico, en comparación con los encuestados de otros sectores”.

Stats iQ muestra hasta 3 flechas, según el valor p calculado a partir del residual ajustado. Stats iQ mostrará un número diferente de flechas en función del grado de importancia del resultado. Específicamente, mostramos una flecha si el valor p es menor que alfa (1 – nivel de confianza), dos flechas si el valor p es menor que alfa/5 y tres flechas si el valor p es menor que alfa/50. Por ejemplo, si su nivel de confianza se ha fijado en el 95%:

  • Valor p <= 0,05: una flecha
  • Valor p <= 0,01: dos flechas
  • Valor p <= 0,001: tres flechas

El cálculo del residuo ajustado y su comparación con niveles alfa específicos pueden etiquetarse como «prueba z» o «prueba z para un porcentaje de muestra». La literatura más típicamente simplemente dice que las conclusiones se basaron en residuos ajustados.

Intervalos de confianza

Para todos los intervalos de confianza binomial, incluidas las tablas de contingencia y en los gráficos de barras Descripción de categoría, Stats iQ calcula el intervalo de confianza utilizando el intervalo de puntuación de Wilson.

Correlaciones de Stats iQ

Cuando los usuarios seleccionan dos variables continuas o discretas, Stats iQ ejecuta una correlación para evaluar si esos dos grupos están relacionados estadísticamente. Stats iQ predetermina el cálculo de la r de Pearson, el tipo más común de correlación; si no se cumplen las suposiciones de esa prueba, Stats iQ recomienda una versión clasificada de la misma prueba, calculando el rho de Spearman. Además, Stats iQ utiliza la transformación Fisher para calcular intervalos de confianza para el coeficiente de correlación.

Supuestos de la r de Pearson

Stats iQ recomienda la r de Pearson como medida válida de correlación si se cumplen ciertas suposiciones sobre los datos:

  • No hay valores extremos en los datos continuos/discretos.
  • La relación entre las variables es lineal (por ejemplo, y = 2x, no y = x^2).

Stats iQ no muestra una línea con el mejor ajuste cuando detecta una infracción de estas suposiciones.

Correlación clasificada (Rho de Spearman)

Cuando se violan las suposiciones, la r de Pearson puede ya no ser una medida válida de correlación. En ese caso, Stats iQ recomienda rho de Spearman; el rango Stats iQ transforma los datos (sustituye los valores por su orden de clasificación) y luego ejecuta la correlación típica. La transformación de rango es un método bien establecido para proteger contra la violación de suposiciones (un método “no paramétrico”), y la transformación de rango de Pearson a Spearman es la más común (Conover e Iman, 1981). Nótese que el rho de Spearman todavía asume que la relación entre las variables es monotónica.

Consideraciones adicionales para correlaciones

  1. Con tamaños de muestra más grandes, es menos probable que los valores atípicos afecten negativamente a los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir valores atípicos como puntos más de 3 veces el rango intracuartil por encima del 75 o por debajo del punto del percentil 25.
  2. Stats iQ identifica una relación como no lineal cuando rho > 1.1 de Spearman * La r de Pearson y la rho de Spearman son estadísticamente significativas.
  3. Aunque las escalas de Likert (como una escala del 1 al 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, usando la r de Pearson).

Pruebas T de Stats iQ

Cuando los usuarios desean relacionar una variable binaria con una variable continua o discreta, Stats iQ ejecuta una prueba t de dos colas (todas las pruebas estadísticas en Qualtrics son de dos colas, si procede) para evaluar si cualquiera de los dos grupos tiende a tener valores más altos que el otro para la variable continua/discreta. Stats iQ utiliza por defecto la prueba t de Welch, también conocida como prueba t para variaciones desiguales; si no se cumplen los supuestos de esa prueba, Stats iQ recomienda una versión clasificada de la misma prueba.

Supuestos de la Prueba T de Welch

Stats iQ recomienda la prueba t de Welch (en lo sucesivo, “prueba t”) si existen varias hipótesis sobre los datos:

  • El tamaño de la muestra de cada grupo es superior a 15 (y, por lo tanto, el teorema del límite central satisface el requisito de datos distribuidos normalmente).
  • Hay pocos valores atípicos o ninguno en los datos continuos/discretos.

A diferencia de la prueba t un poco más común para variaciones iguales, la prueba t de Welch no asume que las varianzas de los dos grupos que se están comparando son iguales. La informática moderna ha hecho innecesaria esa suposición. Además, asumir variaciones iguales conduce a resultados menos precisos cuando las variaciones no son iguales, y sus resultados no son más precisos cuando las variaciones son realmente iguales (Ruxton, 2006).

Prueba T clasificada

Cuando se violan supuestos, la prueba t puede dejar de ser válida. En ese caso, Stats iQ recomienda la prueba T clasificada; la clasificación de Stats iQ transforma los datos (sustituye los valores por su orden de clasificación) y luego ejecuta la misma prueba t de Welch en los datos transformados. La prueba T clasificada es robusta para valores atípicos y datos no distribuidos normalmente. La transformación de rango es un método bien establecido para proteger contra la violación de suposiciones (un método “no paramétrico”), y es más comúnmente visto en la diferencia entre Pearson y Spearman correlación (Conover e Iman, 1981). La transformación de rango seguida por la prueba t de Welch es similar en efecto a la prueba U de Mann-Whitney, pero algo más eficiente (Ruxton, 2006; Zimmerman, 2012).

Tenga en cuenta que mientras que las pruebas de prueba T para la igualdad de los medios de los dos grupos, la prueba T clasificada no prueba explícitamente las diferencias entre los medios o medios de los grupos. Más bien, prueba una tendencia general de un grupo a tener valores más grandes que el otro.

Otras consideraciones para las pruebas T

  1. Con tamaños de muestra inferiores a 15, los datos aún pueden inspeccionarse visualmente para determinar si se distribuyen normalmente; si es así, los resultados de las pruebas T no clasificadas siguen siendo válidos incluso para muestras pequeñas. En la práctica, esta evaluación puede ser difícil de realizar, por lo que Stats iQ recomienda realizar pruebas T clasificadas de forma predeterminada para muestras pequeñas.
  2. Con tamaños de muestra más grandes, es menos probable que los valores atípicos afecten negativamente a los resultados. Stats iQ utiliza la “valla externa” de Tukey para definir valores atípicos como puntos más de 3 veces el rango intracuartil por encima del 75 o por debajo del punto del percentil 25.
  3. Los datos como “Nivel más alto de educación completado” o “Orden de finalización en una maratón” son inequívocamente ordinales. Aunque las escalas de Likert (como una escala del 1 al 7 donde 1 es Muy insatisfecho y 7 es Muy satisfecho) son técnicamente ordinales, es una práctica común en las ciencias sociales tratarlas como si fueran continuas (es decir, con una prueba t no clasificada).

Regresión

Existen dos tipos principales de ejecución de regresión en Stats iQ. Si la variable de salida es una variable numérica, Stats iQ ejecutará una regresión lineal. Si la variable de salida es una variable de categoría, Stats iQ ejecutará una regresión logística. La salida predeterminada para una regresión lineal es una combinación de Importancia relativa (específicamente, Ponderaciones relativas de Johnson) y Mínimos cuadrados ordinarios. Al ejecutar una regresión de “mínimos cuadrados ordinarios”, Stats iQ utiliza la variación llamada “estimación M”, que es una técnica más moderna que amortigua el efecto de los valores atípicos, lo que lleva a resultados más precisos.

Consulte más en Regresión e importancia relativa.

Preguntas frecuentes

Muchas de las páginas de este sitio han sido traducidas del inglés original utilizando la traducción automática. Aunque en Qualtrics hemos realizado nuestra diligencia debida para obtener las mejores traducciones automáticas posibles, la traducción automática nunca es perfecta. El texto original en inglés se considera la versión oficial, y cualquier discrepancia entre el inglés original y las traducciones automáticas no son legalmente vinculantes.