Suposições e detalhes técnicos do teste estatístico

Suite

Customer Experience Employee Experience Strategy & Research

Produto

Qualtrics

O que há nesta página

Stats iQ seleciona testes estatísticos com o objetivo de tornar os testes estatísticos intuitivos e livres de erros.

Esta página descreve os temas gerais da abordagem do Stats iQ, e as páginas seguintes descrevem decisões específicas para testes específicos:

Premissas básicas

Sempre que possível, Stats iQ usa como padrão os testes que têm menos suposições. Por exemplo, os testes t de amostras independentes podem ser calculados de várias maneiras, dependendo do fato de se presumir amostras ou variâncias de tamanhos iguais. Stats iQ executa o teste com o mínimo de suposições.

Além disso, Stats iQ atenua de forma inteligente as violações das suposições dos testes estatísticos. Por exemplo, os testes t em amostras relativamente pequenas exigem dados normalmente distribuídos para serem precisos. Os valores atípicos ou as distribuições não normais geram resultados enganosos. Todos os pontos de dados de

[1, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

são inferiores a todos os pontos de dados de

[11, 12, 13, 13, 14, 14, 14, 15, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

, mas um teste t de amostras independentes nesses grupos não produz uma diferença estatisticamente significativa porque o outlier 2000 viola as premissas do teste t. Stats iQ percebe a discrepância e recomenda um teste t classificado, que produz uma diferença muito clara entre os grupos.

Transformações de classificação

Stats iQ usa frequentemente o método de transformação de classificação para executar testes não paramétricos quando são detectadas violações das suposições de testes paramétricos. A transformação de classificação do Stats iQ substitui os valores por sua ordem de classificação – por exemplo,

[86, 95, 40] é transformado em [2, 3, 1]

– e, em seguida, executa o teste paramétrico típico nos dados transformados. Os valores empatados recebem a classificação média dos valores empatados, portanto,

[11, 35, 35, 52] torna-se [1, 2,5, 2,5, 4].

Mais comumente encontrados na diferença entre as correlações de Pearson e Spearman, os testes transformados em rank são robustos para distribuições não normais e outliers, e são conceitualmente mais simples do que usar testes não paramétricos um pouco mais comuns.

ANOVA

Quando os usuários selecionam uma variável categórica com 3 ou mais grupos e uma variável contínua ou discreta, Stats iQ executa uma ANOVA unidirecional (teste F de Welch) e uma série de testes “post hoc” em pares (testes de Games-Howell). A ANOVA unidirecional testa uma relação geral entre as duas variáveis, e os testes de pares testam cada par possível de grupos para ver se um grupo tende a ter valores mais altos do que o outro.

Premissas do teste F de Welch ANOVA

Stats iQ recomenda um teste F de Welch não classificado se várias suposições sobre os dados forem válidas:

O tamanho amostra é maior que 10 vezes o número de grupos no cálculo (grupos com apenas 1 valor são excluídos) e, portanto, o Teorema do Limite Central satisfaz o requisito de dados normalmente distribuídos.
Há poucas ou nenhuma exceção nos dados contínuos/discretos.

Diferentemente do teste F, um pouco mais comum, para variâncias iguais, o teste F de Welch não pressupõe que as variâncias dos grupos que estão sendo comparados sejam iguais. A suposição de variâncias iguais leva a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são de fato iguais (Tomarken e Serlin, 1986).

ANOVA Classificado

Quando as suposições são violadas, a ANOVA não classificada pode não ser mais válida. Nesse caso, Stats iQ recomenda a ANOVA classificada (também chamada de “ANOVA on ranks”); o Stats iQ transforma os dados em rankings (substitui os valores por sua ordem de classificação) e, em seguida, executa a mesma ANOVA nesses dados transformados.

A ANOVA classificada é robusta para outliers e dados distribuídos de forma não normal. A transformação de classificação é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”) e é mais comumente vista na diferença entre a correlação de Pearson e Spearman. A transformação de classificação seguida pelo teste F de Welch tem efeito semelhante ao do teste de Kruskal-Wallis (Zimmerman, 2012).

O tamanho do efeito indica se a diferença entre as médias dos grupos é grande o suficiente para ter significado prático, se é ou não estatisticamente significativa. Observe que os tamanhos de efeito da ANOVA classificada e não classificada do Stats iQ(f de Cohen) são calculados usando o valor F do teste F para variâncias iguais.

Premissas do teste de pares de Games-Howell

Stats iQ executa testes de Games-Howell independentemente do resultado do teste ANOVA (conforme Zimmerman, 2010). Stats iQ mostra testes pareados de Games-Howell não classificados ou classificados com base nos mesmos critérios usados para ANOVA classificada vs. não classificada; portanto, se você vir “Ranked ANOVA” na saída avançada, os testes pareados também serão classificados.

O Games-Howell é essencialmente um teste t para variâncias desiguais que leva em conta a maior probabilidade de encontrar resultados estatisticamente significativos por acaso ao executar muitos testes em pares. Diferentemente do teste b de Tukey, um pouco mais comum, o teste de Games-Howell não pressupõe que as variâncias dos grupos que estão sendo comparados sejam iguais. A suposição de variâncias iguais leva a resultados menos precisos quando as variâncias não são de fato iguais, e seus resultados são muito semelhantes quando as variâncias são de fato iguais (Howell, 2012).

Observe que, enquanto o teste de pares sem classificação testa a igualdade das médias dos dois grupos, o teste de pares com classificação não testa explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, ele testa uma tendência geral de um grupo ter valores maiores do que o outro.

Além disso, embora Stats iQ não mostre resultados dos testes pareados para qualquer grupo com menos de 4 valores, esses grupos são incluídos no cálculo dos graus de liberdade para os outros testes pareados.

Considerações adicionais sobre ANOVA

Com tamanhos amostra menores, os dados ainda podem ser inspecionados visualmente para determinar se são de fato distribuídos normalmente; se forem, resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa apreciação pode ser difícil de ser feita, portanto, Stats iQ recomenda testes t classificados por padrão para amostras pequenas.

Com amostra maiores, é menos provável que os outliers afetem negativamente resultados. Stats iQ usa a “barreira externa” de Tukey para definir outliers como pontos mais de 3 vezes o intervalo intraquartil acima do 75º ou abaixo do 25º ponto do percentil.

Dados como o nível mais alto de educação concluído ou a ordem de chegada na maratona são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 em que 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, com um teste t não classificado).

Tabelas de contingência Stats iQ

Quando os usuários selecionam duas variáveis categóricas, Stats iQ avalia se essas duas variáveis estão estatisticamente relacionadas. Stats iQ executa o teste exato de Fisher quando possível e, caso contrário, executa o teste de qui-quadrado de Pearson (normalmente chamado apenas de “qui-quadrado”).

Qui-quadrado vs. Teste Exato de Fisher

O teste exato de Fisher é imparcial sempre que pode ser executado, mas é computacionalmente difícil de executar se a tabela for maior que 2 x 2 ou o tamanho amostra for maior que 10.000 (mesmo com a computação moderna). Os testes de qui-quadrado podem ter resultados tendenciosos quando os tamanhos amostra são baixos (tecnicamente, quando a contagem esperada de células é inferior a 5).

Felizmente, os dois testes são complementares, pois o teste exato de Fisher normalmente é fácil de calcular quando os testes de qui-quadrado são tendenciosos (amostras pequenas) e, quando o teste exato de Fisher é difícil de calcular, o qui-quadrado tende a ser imparcial (amostras grandes). Como tabelas maiores com amostras pequenas ainda podem criar problemas (e Stats iQ não pode executar um teste exato de Fisher), Stats iQ alerta os usuários sobre possíveis complicações.

Residuais ajustados

Como outros softwares estatísticos, Stats iQ usa resíduos ajustados para avaliar se uma célula individual está ou não estatisticamente acima ou abaixo das expectativas. Essencialmente, o resíduo ajustado pergunta: “Essa célula tem mais valores do que eu esperaria se não houvesse relação entre essas duas variáveis?”

Se os dados forem exibidos de forma que cada coluna some 100%, você poderá dizer: “A proporção de entrevistados do setor financeiro/bancário que disseram que ‘adoram seu trabalho’ é menor do que o normal, em relação aos entrevistados de outros setores.”

Stats iQ mostra até 3 setas, dependendo do valor de p calculado a partir do resíduo ajustado. Stats iQ mostrará um número diferente de setas, dependendo do grau de significância do resultado. Especificamente, mostramos 1 seta se o valor p for menor que alfa (1 – nível confiança), 2 setas se o valor p for menor que alfa/5 e 3 setas se o valor p for menor que alfa/50. Por exemplo, se seu nível confiança foi definido como 95%:

valor de p <= 0,05: 1 seta
p-value <= .01: 2 setas
p-value <= .001: 3 setas

O cálculo do resíduo ajustado e sua comparação com níveis alfa específicos podem ser rotulados como um “teste z” ou um “teste z para uma porcentagem amostra ” Normalmente, a literatura simplesmente diz que as conclusões foram baseadas em resíduos ajustados.

Intervalos de confiança

Para todos os intervalos de confiança binomiais, incluindo tabelas de contingência e gráficos de barras do Category Describe, Stats iQ calcula o intervalo de confiança usando o Intervalo de Pontuação de Wilson.

Correlações Stats iQ

Quando os usuários selecionam duas variáveis contínuas ou discretas, Stats iQ executa uma correlação para avaliar se esses dois grupos estão estatisticamente relacionados. Por padrão, Stats iQ Stats iQ calcula o r de Pearson, o tipo mais comum de correlação; se as suposições desse teste não forem atendidas, o Stats iQ recomenda uma versão classificada do mesmo teste, calculando o rho de Spearman. Além disso, Stats iQ usa a Transformação de Fisher para calcular os intervalos de confiança do coeficiente de correlação.

Premissas do r de Pearson

Stats iQ recomenda o r de Pearson como uma medida válida de correlação se determinadas suposições sobre os dados forem atendidas:

Não há outliers nos dados contínuos/discretos.
A relação entre as variáveis é linear (por exemplo, y = 2x, e não y = x^2).

Stats iQ não exibe uma linha de melhor ajuste quando detecta uma violação dessas premissas.

Correlação classificada (Spearman’s Rho)

Quando as suposições são violadas, o r de Pearson pode não ser mais uma medida válida de correlação. Nesse caso, Stats iQ recomenda o rho de Spearman; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa a correlação típica. A transformação de classificação é um método bem estabelecido para proteger contra a violação de suposições (um método “não paramétrico”), e a transformação de classificação de Pearson para Spearman é a mais comum (Conover e Iman, 1981). Observe que o rho de Spearman ainda pressupõe que a relação entre as variáveis é monotônica.

Considerações adicionais sobre correlações

Stats iQ identifica uma relação como não linear quando o rho de Spearman > 1,1 * O r de Pearson e o rho de Spearman são estatisticamente significativos.

Embora as escalas Likert (como uma escala de 1 a 7 em que 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, usando o r de Pearson).

Teste T de amostras independentes

Esse teste t não classificado é a forma mais comum de teste t. A significância estatística de um teste t indica se a diferença entre as médias de dois grupos provavelmente reflete uma diferença “real” na população da qual os grupos foram amostrados.

Um resultado de teste t estatisticamente significativo é aquele em que é improvável que uma diferença entre dois grupos tenha ocorrido por acidente ou aleatoriamente. A significância estatística é determinada pelo tamanho da diferença entre as médias dos grupos, o tamanho amostra e os desvios padrão dos grupos. Para fins práticos, a significância estatística sugere que as duas populações das quais fazemos amostra são realmente diferentes.

Exemplo: Digamos que você esteja interessado em saber se o americano médio gasta mais do que o canadense médio por mês em filmes. Você pergunta a uma amostra de 3 pessoas de cada país sobre seus gastos com filmes. Você pode observar uma diferença nessas médias, mas essa diferença não é estatisticamente significativa; pode ser a sorte aleatória de quem você amostrou aleatoriamente que faz com que um grupo pareça gastar mais dinheiro do que o outro. Se, em vez disso, você perguntar a 300 americanos e 300 canadenses e ainda observar uma grande diferença, é menos provável que essa diferença seja causada pelo fato de a amostra não ser representativa.

Observe que, se você perguntasse a 300.000 americanos e 300.000 canadenses, o resultado provavelmente seria estatisticamente significativo, mesmo que a diferença entre os grupos fosse de apenas um centavo. O tamanho do efeito do teste t complementa sua significância estatística, descrevendo a magnitude da diferença, independentemente de a diferença ser ou não estatisticamente significativa.

Teste T de Welch

Quando os usuários desejam relacionar uma variável binária a uma variável contínua ou discreta, Stats iQ executa um teste t bicaudal (todos os testes estatísticos no Qualtrics são bicaudais, quando aplicável) para avaliar se um dos dois grupos tende a ter valores mais altos do que o outro para a variável contínua/discreta. Stats iQ usa como padrão o teste t de Welch, também conhecido como teste t para variâncias desiguais; se as premissas desse teste não forem atendidas, Stats iQ recomenda uma versão classificada do mesmo teste.

Premissas do teste T de Welch

Stats iQ recomenda o teste t de Welch (doravante denominado “teste t”) se várias suposições sobre os dados forem válidas:

O tamanho amostra de cada grupo é superior a 15 (e, portanto, o Teorema do Limite Central satisfaz o requisito de dados normalmente distribuídos).
Há poucas ou nenhuma discrepância nos dados contínuos/discretos.

Diferentemente do teste t ligeiramente mais comum para variâncias iguais, o teste t de Welch não pressupõe que as variâncias dos dois grupos que estão sendo comparados sejam iguais. A computação moderna tornou essa suposição desnecessária. Além disso, presumir variâncias iguais leva a resultados menos precisos quando as variâncias não são iguais, e seus resultados não são mais precisos quando as variâncias são realmente iguais (Ruxton, 2006).

T-Test Classificado

Quando as suposições são violadas, o teste t pode não ser mais válido. Nesse caso, Stats iQ recomenda o teste t classificado; o Stats iQ transforma os dados (substitui os valores por sua ordem de classificação) e, em seguida, executa o mesmo teste t de Welch nos dados transformados. O teste t classificado é robusto para outliers e dados distribuídos de forma não normal. A transformação de classificação é um método bem estabelecido de proteção contra a violação de suposições (um método “não paramétrico”) e é mais comumente vista na diferença entre a correlação de Pearson e Spearman (Conover e Iman, 1981). A transformação de classificação seguida pelo teste t de Welch tem efeito semelhante ao do teste U de Mann-Whitney, mas é um pouco mais eficiente (Ruxton, 2006; Zimmerman, 2012).

Observe que, enquanto o teste t testa a igualdade das médias dos dois grupos, o teste t classificado não testa explicitamente as diferenças entre as médias ou medianas dos grupos. Em vez disso, ele testa uma tendência geral de um grupo ter valores maiores do que o outro.

Outras considerações sobre os testes T

Com tamanhos amostra inferiores a 15, os dados ainda podem ser inspecionados visualmente para determinar se são normalmente distribuídos; se forem, resultados do teste t não classificado ainda são válidos mesmo para amostras pequenas. Na prática, essa apreciação pode ser difícil de ser feita, portanto, Stats iQ recomenda testes t classificados por padrão para amostras pequenas.

Dados como ” nível mais alto de educação concluído” ou “Ordem de chegada em uma maratona” são inequivocamente ordinais. Embora as escalas Likert (como uma escala de 1 a 7 em que 1 é Muito insatisfeito e 7 é Muito satisfeito) sejam tecnicamente ordinais, é prática comum nas ciências sociais tratá-las como se fossem contínuas (ou seja, com um teste t não classificado).

Regressão

Há dois tipos principais de regressão executados no Stats iQ. Se a variável de saída for uma variável numérica, Stats iQ executará uma regressão linear. Se a variável de saída for uma variável de categoria, Stats iQ executará uma regressão logística. A saída padrão para uma regressão linear é uma combinação de Importância relativa (especificamente, Pesos relativos de Johnson) e Mínimos quadrados ordinários. Ao executar uma regressão de “Mínimos Quadrados Ordinários”, Stats iQ usa a variação chamada “M-estimation”, que é uma técnica mais moderna que amortece o efeito de outliers, levando a resultados mais precisos.

Veja mais em Regression & Relative Importance.

Perguntas frequentes

Como crio uma nova variável do Stats iQ?

Você pode criar uma nova variável clicando em Criar ou Limpar variável no canto inferior esquerdo da área de trabalho. Para mais informações, visite a página de suporte em Criação de variável.

Quais são as opções para analisar meus dados no Stats iQ?

O Stats iQ fornece quatro opções para analisar dados:

Descrever: selecionar uma variável da lista e clicar em Descrever fornecerá uma visualização dos dados contidos nessa variável. Use quando você quiser ver como os dados de uma determinada variável são distribuídos.
Relacionar: selecionar duas variáveis e, em seguida, clicar em Relacionar executará uma análise estatística da relação entre as duas variáveis. Use quando quiser saber a intensidade com que duas variáveis estão correlacionadas.
Tabela dinâmica: selecionar duas ou mais variáveis e clicar em Tabela dinâmica criará uma tabela que exibe os valores das variáveis como linhas e colunas. As células podem ser configuradas para exibir uma variedade de informações diferentes, incluindo porcentagem de coluna e linha, soma e desvio. Use quando você quiser comparar a sobreposição entre valores específicos de um conjunto de variáveis.
Regressão: Selecionar duas variáveis e clicar em Regressão dará a relação matemática entre as variáveis. Use quando você quiser prever valores para uma variável com base nos valores de outra.
Cluster: selecionar de duas a dez variáveis demográficas e clicar em Cluster exibirá agrupamentos de características com maior probabilidade de ocorrer juntas, revelando assim os segmentos populacionais capturados em seus dados.

Não sei o que esse termo estatístico significa. Você pode me dizer?

Testes estatísticos: ANOVA, teste T e Qui-quadrado são todos testes estatísticos que o Stats iQ realiza para testar se a relação entre duas variáveis é ou não significativa. Estes testes são utilizados para gerar um valor P.
Valor P: Esse valor representa a probabilidade de que os resultados observados sejam vistos se não houver correlação entre as variáveis. Um valor P mais baixo significa mais dados correlacionados.
Tamanho do Efeito: O tamanho do efeito é uma medida do tamanho da correlação entre duas variáveis. Isso é medido de diferentes formas, dependendo do tipo de teste estatístico realizado. Exemplos são o d de Cohen, r de Pearson e v de Cramer. Quanto maior o valor do tamanho do efeito, mais correlacionadas são as variáveis.

Para mais informações, visite a página de suporte Premissas do teste estatístico e detalhes técnicos.

Como filtro os dados que aparecem no Stats iQ?

Você pode filtrar os dados que aparecem no Stats iQ em dois níveis diferentes: em cartões individuais e no espaço de trabalho geral. Você pode encontrar instruções na página Filtrando dados do Stats iQ.

Como faço para que minhas novas respostas apareçam no Stats iQ?

No Stats iQ, clique no botão Configurações e selecione Importar dados mais recentes. Isso importará quaisquer novas respostas ao Stats iQ e as incluirá em sua análise.

Como os cartões de análise são pedidos no meu espaço de trabalho do Stats iQ?

Os cartões de análise são ordenados automaticamente para mostrar os resultados mais estatisticamente significativos. Você pode alterar a ordem em que as variáveis aparecem no conjunto de dados navegando para o menu Configurações da análise.

O que é Stats iQ? / Onde está o Statwing?

Stats iQ é o novo nome para Statwing. Você pode encontrar o Stats iQ indo para qualquer projeto, indo para Dados e análise e selecionando Stats iQ.

O que faço se meus dados não estiverem sendo carregados corretamente?

Certifique-se de ter carregado seu conjunto de dados atual clicando em Importar dados mais recentes no Stats iQ. Se os seus dados ainda não estiverem sendo carregados corretamente, entre contato o Suporte Técnico Qualtrics.

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.

Isto foi útil?

O feedback que você envia aqui é usado apenas para ajudar a melhorar essa página.

Isso é ótimo! Obrigado pelo seu feedback!

Obrigado pelo seu feedback!