Ir para o conteúdo principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Premissas de teste estatístico e detalhes técnicos


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


O Stats iQ seleciona testes estatísticos com o objetivo de tornar os testes estatísticos intuitivos e sem erros.

Esta página descreve temas abrangentes da abordagem do Stats iQ e o seguinte descreve decisões específicas para testes específicos:

Pressuposições básicas

Sempre que possível, o Stats iQ assume como padrão testes que têm menos suposições. Por exemplo, os testes t de amostras independentes podem ser calculados de várias formas, dependendo de se amostras ou desvios igualmente dimensionados são assumidos. O Stats iQ executa o teste com o mínimo de suposições.

Além disso, o Stats iQ atenua de forma inteligente as violações das suposições dos testes estatísticos. Por exemplo, testes t em amostras relativamente pequenas requerem dados normalmente distribuídos para serem precisos. Anomalias ou distribuições não normais criam resultados enganosos. Cada ponto de dados de

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

é inferior a todos os pontos de dados em

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

mas um teste t de amostras independentes nesses grupos não produz uma diferença estatisticamente significativa porque o outlier 2000 viola as suposições do teste t. O Stats iQ observa o outlier e recomenda um teste t classificado, o que gera uma diferença muito clara entre os grupos.

Classificar transformações

O Stats iQ usa frequentemente o método de transformação de classificação para executar testes não paramétricos quando são detectadas violações de suposições de teste paramétrico. A transformação de classificação do Stats iQ substitui os valores pela ordem de classificação – por exemplo

[86, 95, 40] é transformado em [2, 3, 1]

—em seguida, executa o teste paramétrico típico nos dados transformados. Os valores vinculados recebem a classificação média dos valores vinculados, então

[11, 35, 35, 52] passa a ser [1, 2.5, 2.5, 4].

Mais comumente encontrados na diferença entre as correlações de Pearson e Spearman, os testes de transformação de postos são robustos a distribuições não normais e outliers, e são conceitualmente mais simples do que o uso de testes não paramétricos ligeiramente mais comuns.

ANOVA

Quando os usuários selecionam uma variável categórica com três ou mais grupos e uma variável contínua ou discreta, o Stats iQ executa uma ANOVA unidirecional (teste F de Welch) e uma série de testes “post hoc” em pares (testes Games-Howell). Os testes ANOVA one-way para uma relação geral entre as duas variáveis, e os testes em pares testam cada par possível de grupos para ver se um grupo tende a ter valores maiores que o outro.

Pressuposições do Teste F de Welch ANOVA

O Stats iQ recomenda um teste F de Welch não classificado se várias suposições sobre os dados forem mantidas:

  • O tamanho da amostra é maior que 10 vezes o número de grupos no cálculo (grupos com apenas um valor são excluídos) e, portanto, o Teorema do Limite Central satisfaz o requisito para dados normalmente distribuídos.
  • Existem poucos ou nenhum valor atípico nos dados contínuos/discretos.

Diferentemente do teste F ligeiramente mais comum para variâncias iguais, o teste F de Welch não assume que as variâncias dos grupos que estão sendo comparados sejam iguais. Assumindo que variações iguais levam a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são realmente iguais (Tomarken e Serlin, 1986).

ANOVA Classificado

Quando as suposições são violadas, a ANOVA sem classificação pode não ser mais válida. Nesse caso, o Stats iQ recomenda a ANOVA classificada (também chamada de “ANOVA on ranks”); o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa a mesma ANOVA nesses dados transformados.

A ANOVA classificada é robusta para dados atípicos e não distribuídos normalmente. A transformação de ranks é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e é mais comumente visto na diferença entre a correlação de Pearson e Spearman. Transformação de classificação seguida pelo teste F de Welch é semelhante em efeito ao Teste de Kruskal-Wallis (Zimmerman, 2012).

Observe que os tamanhos de efeito ANOVA classificados e não classificados do Stats iQ (f de Cohen) são calculados usando o valor F do teste F para desvios iguais.

Pressuposições do Games-Howell Pairwise Test

O Stats iQ executa os testes de Games-Howell independentemente do resultado do teste ANOVA (conforme Zimmerman, 2010). O Stats iQ mostra testes em pares não classificados ou classificados de Games-Howell com base nos mesmos critérios usados para ANOVA classificada vs. não classificada; assim, se você visualizar “ANOVA classificada” na saída avançada, os testes em pares também serão classificados.

O Games-Howell é essencialmente um teste t para variâncias desiguais que responde pela probabilidade aumentada de encontrar resultados estatisticamente significativos por acaso ao executar muitos testes pareados. Ao contrário do teste b de Tukey um pouco mais comum, o teste de Games-Howell não assume que as variâncias dos grupos que estão sendo comparados são iguais. Assumir desvios iguais leva a resultados menos precisos quando as variações não são de fato iguais, e seus resultados são muito semelhantes quando as variações são realmente iguais (Howell, 2012).

Note que, enquanto o teste de igualdade das médias dos dois grupos não é classificado em pares, o teste de pares classificados não prova explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, testa uma tendência geral de um grupo ter valores maiores do que o outro.

Além disso, enquanto o Stats iQ não mostra resultados de testes em pares para qualquer grupo com menos de 4 valores, esses grupos são incluídos no cálculo dos graus de liberdade para os outros testes em pares.

Considerações adicionais de ANOVA

  1. Com tamanhos de amostra menores, os dados ainda podem ser inspecionados visualmente para determinar se estão de fato normalmente distribuídos; se for, os resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa avaliação pode ser difícil de ser feita, por isso o Stats iQ recomenda que os testes t sejam classificados por padrão para amostras pequenas.
  2. Com amostras maiores, outliers são menos propensos a afetar negativamente os resultados. O Stats iQ usa a “cerca externa” de Tukey para definir valores atípicos como pontos mais de 3 vezes o intervalo intra-quartil acima do 75° ou abaixo do percentil 25.
  3. Dados como o nível mais alto de escolaridade concluído ou a ordem de conclusão na maratona são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 onde 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-los como se fossem contínuos (isto é, com um teste t não classificado).

Tabelas de contingência do Stats iQ

Quando os usuários selecionam duas variáveis categóricas, o Stats iQ avalia se essas duas variáveis estão estatisticamente relacionadas. O Stats iQ executa o teste exato de Fisher quando possível e, caso contrário, executa o teste Qui-quadrado de Pearson (normalmente chamado de “Qui-quadrado”).

Qui-quadrado vs. Teste Exato de Fisher

O teste exato de Fisher é imparcial sempre que pode ser executado, mas é computacionalmente difícil de executar se a tabela é maior que 2 x 2 ou o tamanho da amostra é maior que 10.000 (mesmo com a computação moderna). Os testes Qui-quadrado podem ter resultados enviesados quando os tamanhos de amostra são baixos (tecnicamente, quando as contagens de células esperadas são inferiores a 5).

Felizmente, os dois testes são complementares em que o teste exato de Fisher é tipicamente fácil de calcular quando os testes de Qui-quadrado são enviesados (amostras pequenas), e quando o teste exato de Fisher é difícil de calcular, o qui-quadrado tende a ser imparcial (amostras grandes). Insomuch, já que tabelas maiores com amostras pequenas ainda podem criar problemas (e o Stats iQ não pode executar o teste exato de Fisher), o Stats iQ alerta os usuários para possíveis complicações.

Residuais ajustados

Como outro software estatístico, o Stats iQ usa resíduos ajustados para avaliar se uma célula individual está estatisticamente ou não significativamente acima ou abaixo das expectativas. Essencialmente, o resíduo ajustado pergunta: “Esta célula tem mais valores nele do que eu esperava se não houvesse relação entre essas duas variáveis?”

Se você tiver os dados exibidos de modo que cada coluna some 100%, você pode dizer “A proporção de entrevistados de Finanças/Bancos que disseram “Amar o trabalho” é menor do que a típica, em relação aos entrevistados de outros setores.”

O Stats iQ mostra até 3 setas, dependendo do valor p calculado a partir do residual ajustado. O Stats iQ mostrará um número diferente de setas, dependendo do grau de significância do resultado. Especificamente, mostramos uma seta se o valor p for menor que alfa (1 – nível de confiança), duas setas se o valor-p for menor que alfa/5 e três setas se o valor-p for menor que alfa/50. Por exemplo, se seu nível de confiança foi definido como 95%:

  • Valor p <= .05: uma seta
  • p-value <= .01: duas setas
  • Valor p <= .001: três setas

O cálculo do resíduo ajustado, e sua comparação com níveis alfa específicos, podem ser rotulados como “teste z” ou “teste z para uma porcentagem da amostra”. A literatura mais tipicamente diz simplesmente que as conclusões foram baseadas em resíduos ajustados.

Intervalos de confiança

Para todos os intervalos de confiança binomiais, incluindo tabelas de contingência e em gráficos de barras Descrição de categoria, o Stats iQ calcula o intervalo de confiança usando o Intervalo de pontuação Wilson.

Correlações do Stats iQ

Quando os usuários selecionam duas variáveis contínuas ou discretas, o Stats iQ executa uma correlação para avaliar se esses dois grupos estão estatisticamente relacionados. O Stats iQ usa como padrão o cálculo do r de Pearson, o tipo de correlação mais comum; se as suposições desse teste não forem atendidas, o Stats iQ recomenda uma versão classificada do mesmo teste, calculando o rho de Spearman. Além disso, o Stats iQ usa a Transformação de Fisher para calcular intervalos de confiança para o coeficiente de correlação.

Premissas do r de Pearson

O Stats iQ recomenda o r de Pearson como uma medida válida de correlação se certas suposições sobre os dados forem atendidas:

  • Não existem anomalias nos dados contínuos/discretos.
  • A relação entre as variáveis é linear (por exemplo, y = 2x, não y = x^2).

O Stats iQ não exibe uma linha de melhor ajuste quando detecta uma violação dessas suposições.

Correlação Classificada (Rho de Spearman)

Quando as suposições são violadas, o r de Pearson pode não ser mais uma medida válida de correlação. Nesse caso, o Stats iQ recomenda o rho de Spearman; o Stats iQ transforma os dados (substitui valores pela ordem de classificação) e, em seguida, executa a correlação típica. A transformação de ranks é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e a transformação de postos de Pearson para Spearman é a mais comum (Conover e Iman, 1981). Note-se que o rho de Spearman ainda assume que a relação entre as variáveis é monotônica.

Considerações adicionais para correlações

  1. Com amostras maiores, outliers são menos propensos a afetar negativamente os resultados. O Stats iQ usa a “cerca externa” de Tukey para definir valores atípicos como pontos mais de 3 vezes o intervalo intra-quartil acima do 75° ou abaixo do percentil 25.
  2. O Stats iQ identifica uma relação como não linear quando o rho de Spearman > 1,1 * o r de Pearson e o rho de Spearman são estatisticamente significativos.
  3. Embora as escalas Likert (como uma escala de 1 a 7, onde 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, usando o r de Pearson).

Testes T do Stats iQ

Quando os usuários querem relacionar uma variável binária a uma variável contínua ou discreta, o Stats iQ executa um teste t bicaudal (todos os testes estatísticos na Qualtrics são bicaudais, quando aplicável) para avaliar se qualquer um dos dois grupos tende a ter valores mais altos do que o outro para a variável contínua/discreta. O Stats iQ assume como padrão o teste t de Welch, também conhecido como teste t para variâncias desiguais; se as suposições desse teste não forem atendidas, o Stats iQ recomenda uma versão classificada do mesmo teste.

Pressuposições do T-Test da Welch

O Stats iQ recomenda o teste t de Welch (doravante denominado “teste t”) se várias premissas sobre os dados forem mantidas:

  • O tamanho da amostra de cada grupo é superior a 15 (e, portanto, o Teorema do Limite Central satisfaz o requisito para dados normalmente distribuídos).
  • Existem poucos ou nenhum valor atípico nos dados contínuos/discretos.

Ao contrário do teste t ligeiramente mais comum para variâncias iguais, o teste t de Welch não assume que as variâncias dos dois grupos que estão sendo comparados são iguais. A computação moderna tornou essa suposição desnecessária. Além disso, supondo que desvios iguais levam a resultados menos precisos quando as variâncias não são iguais, e seus resultados não são mais precisos quando as variâncias são realmente iguais (Ruxton, 2006).

T-Test Classificado

Quando as suposições são violadas, o teste t pode não ser mais válido. Nesse caso, o Stats iQ recomenda o teste t classificado; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa o mesmo teste t de Welch sobre esses dados transformados. O teste t classificado é robusto para dados atípicos e não distribuídos normalmente. A transformação de ranks é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e é mais comumente visto na diferença entre a correlação de Pearson e Spearman (Conover e Iman, 1981). A transformação da classificação seguida pelo teste t de Welch é semelhante em efeito ao Teste U de Mann-Whitney, mas um pouco mais eficiente (Ruxton, 2006; Zimmerman, 2012).

Observe que enquanto o teste t para igualdade das médias dos dois grupos, o teste t classificado não prova explicitamente as diferenças entre os grupos médias ou medianas. Em vez disso, testa uma tendência geral de um grupo ter valores maiores do que o outro.

Outras considerações para testes T

  1. Com tamanhos de amostra abaixo de 15, os dados ainda podem ser inspecionados visualmente para determinar se estão normalmente distribuídos; se for, os resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa avaliação pode ser difícil de ser feita, por isso o Stats iQ recomenda que os testes t sejam classificados por padrão para amostras pequenas.
  2. Com amostras maiores, outliers são menos propensos a afetar negativamente os resultados. O Stats iQ usa a “cerca externa” de Tukey para definir valores atípicos como pontos mais de 3 vezes o intervalo intra-quartil acima do 75° ou abaixo do percentil 25.
  3. Dados como “Nível educacional mais alto concluído” ou “Ordem de conclusão em uma maratona” são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 onde 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-los como se fossem contínuos (isto é, com um teste t não classificado).

Regressão

Existem dois tipos principais de execução de regressão no Stats iQ. Se a variável de saída for uma variável de números, o Stats iQ executará uma regressão linear. Se a variável de saída for uma variável de categorias, o Stats iQ executará uma regressão logística. A saída padrão para uma regressão linear é uma combinação de Importância relativa (especificamente, Pesos relativos de Johnson) e Menos quadrados ordinários. Ao executar uma regressão “Mínimos Quadrados Ordinários”, o Stats iQ usa a variação chamada “Estimativa M”, que é uma técnica mais moderna que amortece o efeito de outliers, levando a resultados mais precisos.

Veja mais em Regressão e importância relativa.

Perguntas frequentes

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.