Suposições e detalhes técnicos do teste estatístico
O que há nesta página
Stats iQ seleciona testes estatísticos com o objetivo de tornar os testes estatísticos intuitivos e livres de erros.
Esta página descreve os temas gerais da abordagem do Stats iQ, e as páginas seguintes descrevem decisões específicas para testes específicos:
Premissas básicas
Sempre que possível, Stats iQ usa como padrão os testes que têm menos suposições. Por exemplo, os testes t de amostras independentes podem ser calculados de várias maneiras, dependendo do fato de se presumir amostras ou variâncias de tamanhos iguais. Stats iQ executa o teste com o mínimo de suposições.
Além disso, Stats iQ atenua de forma inteligente as violações das suposições dos testes estatísticos. Por exemplo, os testes t em amostras relativamente pequenas exigem dados normalmente distribuídos para serem precisos. Os valores atípicos ou as distribuições não normais geram resultados enganosos. Todos os pontos de dados de
[1, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]
são inferiores a todos os pontos de dados de
[11, 12, 13, 13, 14, 14, 14, 15, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]
, mas um teste t de amostras independentes nesses grupos não produz uma diferença estatisticamente significativa porque o outlier 2000 viola as premissas do teste t. Stats iQ percebe a discrepância e recomenda um teste t classificado, que produz uma diferença muito clara entre os grupos.
Transformações de classificação
Stats iQ usa frequentemente o método de transformação de classificação para executar testes não paramétricos quando são detectadas violações das suposições de testes paramétricos. A transformação de classificação do Stats iQ substitui os valores por sua ordem de classificação – por exemplo,
[86, 95, 40] é transformado em [2, 3, 1]
– e, em seguida, executa o teste paramétrico típico nos dados transformados. Os valores empatados recebem a classificação média dos valores empatados, portanto,
[11, 35, 35, 52] torna-se [1, 2,5, 2,5, 4].
Mais comumente encontrados na diferença entre as correlações de Pearson e Spearman, os testes transformados em rank são robustos para distribuições não normais e outliers, e são conceitualmente mais simples do que usar testes não paramétricos um pouco mais comuns.
ANOVA
Quando os usuários selecionam uma variável categórica com 3 ou mais grupos e uma variável contínua ou discreta, Stats iQ executa uma ANOVA unidirecional (teste F de Welch) e uma série de testes “post hoc” em pares (testes de Games-Howell). A ANOVA unidirecional testa uma relação geral entre as duas variáveis, e os testes de pares testam cada par possível de grupos para ver se um grupo tende a ter valores mais altos do que o outro.
Premissas do teste F de Welch ANOVA
Stats iQ recomenda um teste F de Welch não classificado se várias suposições sobre os dados forem válidas:
- O tamanho amostra é maior que 10 vezes o número de grupos no cálculo (grupos com apenas 1 valor são excluídos) e, portanto, o Teorema do Limite Central satisfaz o requisito de dados normalmente distribuídos.
- Há poucas ou nenhuma exceção nos dados contínuos/discretos.
Diferentemente do teste F, um pouco mais comum, para variâncias iguais, o teste F de Welch não pressupõe que as variâncias dos grupos que estão sendo comparados sejam iguais. A suposição de variâncias iguais leva a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são de fato iguais (Tomarken e Serlin, 1986).
ANOVA Classificado
Quando as suposições são violadas, a ANOVA não classificada pode não ser mais válida. Nesse caso, Stats iQ recomenda a ANOVA classificada (também chamada de “ANOVA on ranks”); o Stats iQ transforma os dados em rankings (substitui os valores por sua ordem de classificação) e, em seguida, executa a mesma ANOVA nesses dados transformados.
A ANOVA classificada é robusta para outliers e dados distribuídos de forma não normal. A transformação de classificação é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”) e é mais comumente vista na diferença entre a correlação de Pearson e Spearman. A transformação de classificação seguida pelo teste F de Welch tem efeito semelhante ao do teste de Kruskal-Wallis (Zimmerman, 2012).
O tamanho do efeito indica se a diferença entre as médias dos grupos é grande o suficiente para ter significado prático, se é ou não estatisticamente significativa. Observe que os tamanhos de efeito da ANOVA classificada e não classificada do Stats iQ(f de Cohen) são calculados usando o valor F do teste F para variâncias iguais.
Premissas do teste de pares de Games-Howell
Stats iQ executa testes de Games-Howell independentemente do resultado do teste ANOVA (conforme Zimmerman, 2010). Stats iQ mostra testes pareados de Games-Howell não classificados ou classificados com base nos mesmos critérios usados para ANOVA classificada vs. não classificada; portanto, se você vir “Ranked ANOVA” na saída avançada, os testes pareados também serão classificados.
O Games-Howell é essencialmente um teste t para variâncias desiguais que leva em conta a maior probabilidade de encontrar resultados estatisticamente significativos por acaso ao executar muitos testes em pares. Diferentemente do teste b de Tukey, um pouco mais comum, o teste de Games-Howell não pressupõe que as variâncias dos grupos que estão sendo comparados sejam iguais. A suposição de variâncias iguais leva a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são de fato iguais (Howell, 2012).
Observe que, enquanto o teste de pares sem classificação testa a igualdade das médias dos dois grupos, o teste de pares com classificação não testa explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, ele testa uma tendência geral de um grupo ter valores maiores do que o outro.
Além disso, embora Stats iQ não mostre resultados dos testes pareados para qualquer grupo com menos de 4 valores, esses grupos são incluídos no cálculo dos graus de liberdade para os outros testes pareados.
Considerações adicionais sobre ANOVA
Tabelas de contingência Stats iQ
Quando os usuários selecionam duas variáveis categóricas, Stats iQ avalia se essas duas variáveis estão estatisticamente relacionadas. Stats iQ executa o teste exato de Fisher quando possível e, caso contrário, executa o teste de qui-quadrado de Pearson (normalmente chamado apenas de “qui-quadrado”).
Qui-quadrado vs. Teste Exato de Fisher
O teste exato de Fisher é imparcial sempre que pode ser executado, mas é computacionalmente difícil de executar se a tabela for maior que 2 x 2 ou o tamanho amostra for maior que 10.000 (mesmo com a computação moderna). Os testes de qui-quadrado podem ter resultados tendenciosos quando os tamanhos amostra são baixos (tecnicamente, quando a contagem esperada de células é inferior a 5).
Felizmente, os dois testes são complementares, pois o teste exato de Fisher normalmente é fácil de calcular quando os testes de qui-quadrado são tendenciosos (amostras pequenas) e, quando o teste exato de Fisher é difícil de calcular, o qui-quadrado tende a ser imparcial (amostras grandes). Como tabelas maiores com amostras pequenas ainda podem criar problemas (e Stats iQ não pode executar um teste exato de Fisher), Stats iQ alerta os usuários sobre possíveis complicações.
Residuais ajustados
Como outros softwares estatísticos, Stats iQ usa resíduos ajustados para avaliar se uma célula individual está ou não estatisticamente acima ou abaixo das expectativas. Essencialmente, o resíduo ajustado pergunta: “Essa célula tem mais valores do que eu esperaria se não houvesse relação entre essas duas variáveis?”
Se os dados forem exibidos de forma que cada coluna some 100%, você poderá dizer: “A proporção de entrevistados do setor financeiro/bancário que disseram que ‘adoram seu trabalho’ é menor do que o normal, em relação aos entrevistados de outros setores.”
Stats iQ mostra até 3 setas, dependendo do valor de p calculado a partir do resíduo ajustado. Stats iQ mostrará um número diferente de setas, dependendo do grau de significância do resultado. Especificamente, mostramos 1 seta se o valor p for menor que alfa (1 – nível confiança), 2 setas se o valor p for menor que alfa/5 e 3 setas se o valor p for menor que alfa/50. Por exemplo, se seu nível confiança foi definido como 95%:
- valor de p <= 0,05: 1 seta
- p-value <= .01: 2 setas
- p-value <= .001: 3 setas
O cálculo do resíduo ajustado e sua comparação com níveis alfa específicos podem ser rotulados como um “teste z” ou um “teste z para uma porcentagem amostra ” Normalmente, a literatura simplesmente diz que as conclusões foram baseadas em resíduos ajustados.
Intervalos de confiança
Para todos os intervalos de confiança binomiais, incluindo tabelas de contingência e gráficos de barras do Category Describe, Stats iQ calcula o intervalo de confiança usando o Intervalo de Pontuação de Wilson.
Correlações Stats iQ
Quando os usuários selecionam duas variáveis contínuas ou discretas, Stats iQ executa uma correlação para avaliar se esses dois grupos estão estatisticamente relacionados. Por padrão, Stats iQ Stats iQ calcula o r de Pearson, o tipo mais comum de correlação; se as suposições desse teste não forem atendidas, o Stats iQ recomenda uma versão classificada do mesmo teste, calculando o rho de Spearman. Além disso, Stats iQ usa a Transformação de Fisher para calcular os intervalos de confiança do coeficiente de correlação.
Premissas do r de Pearson
Stats iQ recomenda o r de Pearson como uma medida válida de correlação se determinadas suposições sobre os dados forem atendidas:
- Não há outliers nos dados contínuos/discretos.
- A relação entre as variáveis é linear (por exemplo, y = 2x, e não y = x^2).
Stats iQ não exibe uma linha de melhor ajuste quando detecta uma violação dessas premissas.
Correlação classificada (Spearman’s Rho)
Quando as suposições são violadas, o r de Pearson pode não ser mais uma medida válida de correlação. Nesse caso, Stats iQ recomenda o rho de Spearman; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa a correlação típica. A transformação de classificação é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e a transformação de classificação de Pearson para Spearman é a mais comum (Conover e Iman, 1981). Observe que o rho de Spearman ainda pressupõe que a relação entre as variáveis é monotônica.
Considerações adicionais sobre correlações
Teste T de amostras independentes
Esse teste t não classificado é a forma mais comum de teste t. A significância estatística de um teste t indica se a diferença entre as médias de dois grupos provavelmente reflete uma diferença “real” na população da qual os grupos foram amostrados.
Um resultado de teste t estatisticamente significativo é aquele em que é improvável que uma diferença entre dois grupos tenha ocorrido por acidente ou aleatoriamente. A significância estatística é determinada pelo tamanho da diferença entre as médias dos grupos, o tamanho amostra e os desvios padrão dos grupos. Para fins práticos, a significância estatística sugere que as duas populações das quais fazemos amostra são realmente diferentes.
Exemplo: Digamos que você esteja interessado em saber se o americano médio gasta mais do que o canadense médio por mês em filmes. Você pergunta a uma amostra de 3 pessoas de cada país sobre seus gastos com filmes. Você pode observar uma diferença nessas médias, mas essa diferença não é estatisticamente significativa; pode ser a sorte aleatória de quem você amostrou aleatoriamente que faz com que um grupo pareça gastar mais dinheiro do que o outro. Se, em vez disso, você perguntar a 300 americanos e 300 canadenses e ainda observar uma grande diferença, é menos provável que essa diferença seja causada pelo fato de a amostra não ser representativa.
Observe que, se você perguntasse a 300.000 americanos e 300.000 canadenses, o resultado provavelmente seria estatisticamente significativo, mesmo que a diferença entre os grupos fosse de apenas um centavo. O tamanho do efeito do teste t complementa sua significância estatística, descrevendo a magnitude da diferença, independentemente de a diferença ser ou não estatisticamente significativa.
Teste T de Welch
Quando os usuários desejam relacionar uma variável binária a uma variável contínua ou discreta, Stats iQ executa um teste t bicaudal (todos os testes estatísticos no Qualtrics são bicaudais, quando aplicável) para avaliar se um dos dois grupos tende a ter valores mais altos do que o outro para a variável contínua/discreta. Stats iQ usa como padrão o teste t de Welch, também conhecido como teste t para variâncias desiguais; se as premissas desse teste não forem atendidas, Stats iQ recomenda uma versão classificada do mesmo teste.
Premissas do teste T de Welch
Stats iQ recomenda o teste t de Welch (doravante denominado “teste t”) se várias suposições sobre os dados forem válidas:
- O tamanho amostra de cada grupo é superior a 15 (e, portanto, o Teorema do Limite Central satisfaz o requisito de dados normalmente distribuídos).
- Há poucas ou nenhuma discrepância nos dados contínuos/discretos.
Diferentemente do teste t ligeiramente mais comum para variâncias iguais, o teste t de Welch não pressupõe que as variâncias dos dois grupos que estão sendo comparados sejam iguais. A computação moderna tornou essa suposição desnecessária. Além disso, presumir variâncias iguais leva a resultados menos precisos quando as variâncias não são iguais, e seus resultados não são mais precisos quando as variâncias são realmente iguais (Ruxton, 2006).
T-Test Classificado
Quando as suposições são violadas, o teste t pode não ser mais válido. Nesse caso, Stats iQ recomenda o teste t classificado; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa o mesmo teste t de Welch nos dados transformados. O teste t classificado é robusto para outliers e dados distribuídos de forma não normal. A transformação de classificação é um método bem estabelecido de proteção contra a violação de suposições (um método “não paramétrico”) e é mais comumente vista na diferença entre a correlação de Pearson e Spearman (Conover e Iman, 1981). A transformação de classificação seguida pelo teste t de Welch tem efeito semelhante ao do teste U de Mann-Whitney, mas é um pouco mais eficiente (Ruxton, 2006; Zimmerman, 2012).
Observe que, enquanto o teste t testa a igualdade das médias dos dois grupos, o teste t classificado não testa explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, ele testa uma tendência geral de um grupo ter valores maiores do que o outro.
Outras considerações sobre os testes T
Regressão
Há dois tipos principais de regressão executados no Stats iQ. Se a variável de saída for uma variável numérica, Stats iQ executará uma regressão linear. Se a variável de saída for uma variável de categoria, Stats iQ executará uma regressão logística. A saída padrão para uma regressão linear é uma combinação de Importância relativa (especificamente, Pesos relativos de Johnson) e Mínimos quadrados ordinários. Ao executar uma regressão de “Mínimos Quadrados Ordinários”, Stats iQ usa a variação chamada “M-estimation”, que é uma técnica mais moderna que amortece o efeito de outliers, levando a resultados mais precisos.
Veja mais em Regression & Relative Importance.
Perguntas frequentes
Como crio uma nova variável do Stats iQ?
Como crio uma nova variável do Stats iQ?
Quais são as opções para analisar meus dados no Stats iQ?
Quais são as opções para analisar meus dados no Stats iQ?
- Descrever: selecionar uma variável da lista e clicar em Descrever fornecerá uma visualização dos dados contidos nessa variável. Use quando você quiser ver como os dados de uma determinada variável são distribuídos.
- Relacionar: selecionar duas variáveis e, em seguida, clicar em Relacionar executará uma análise estatística da relação entre as duas variáveis. Use quando quiser saber a intensidade com que duas variáveis estão correlacionadas.
- Tabela dinâmica: selecionar duas ou mais variáveis e clicar em Tabela dinâmica criará uma tabela que exibe os valores das variáveis como linhas e colunas. As células podem ser configuradas para exibir uma variedade de informações diferentes, incluindo porcentagem de coluna e linha, soma e desvio. Use quando você quiser comparar a sobreposição entre valores específicos de um conjunto de variáveis.
- Regressão: Selecionar duas variáveis e clicar em Regressão dará a relação matemática entre as variáveis. Use quando você quiser prever valores para uma variável com base nos valores de outra.
- Cluster: selecionar de duas a dez variáveis demográficas e clicar em Cluster exibirá agrupamentos de características com maior probabilidade de ocorrer juntas, revelando assim os segmentos populacionais capturados em seus dados.
Não sei o que esse termo estatístico significa. Você pode me dizer?
Não sei o que esse termo estatístico significa. Você pode me dizer?
- Testes estatísticos: ANOVA, teste T e Qui-quadrado são todos testes estatísticos que o Stats iQ realiza para testar se a relação entre duas variáveis é ou não significativa. Estes testes são utilizados para gerar um valor P.
- Valor P: Esse valor representa a probabilidade de que os resultados observados sejam vistos se não houver correlação entre as variáveis. Um valor P mais baixo significa mais dados correlacionados.
- Tamanho do Efeito: O tamanho do efeito é uma medida do tamanho da correlação entre duas variáveis. Isso é medido de diferentes formas, dependendo do tipo de teste estatístico realizado. Exemplos são o d de Cohen, r de Pearson e v de Cramer. Quanto maior o valor do tamanho do efeito, mais correlacionadas são as variáveis.
Como filtro os dados que aparecem no Stats iQ?
Como filtro os dados que aparecem no Stats iQ?
Como faço para que minhas novas respostas apareçam no Stats iQ?
Como faço para que minhas novas respostas apareçam no Stats iQ?
Como os cartões de análise são pedidos no meu espaço de trabalho do Stats iQ?
Como os cartões de análise são pedidos no meu espaço de trabalho do Stats iQ?
O que é Stats iQ? / Onde está o Statwing?
O que é Stats iQ? / Onde está o Statwing?
O que faço se meus dados não estiverem sendo carregados corretamente?
O que faço se meus dados não estiverem sendo carregados corretamente?
Isso é ótimo! Obrigado pelo seu feedback!
Obrigado pelo seu feedback!