Interpretando parcelas residuais para melhorar sua regressão

Suite
Customer Experience Employee Experience Strategy & Research
Produto
Qualtrics

O que há nesta página

Ao executar uma regressão, o Stats iQ calcula e parcela os resíduos automaticamente para ajudá-lo a entender e melhorar seu modelo de regressão. Leia abaixo para saber tudo o que você precisa descobrir sobre a interpretação de resíduos (incluindo definições e exemplos).

Observações, previsões e resíduos

Para demonstrar como interpretar resíduos, usaremos um conjunto de dados de barraquinha de limonada, onde cada linha representa um dia de “Temperatura” e “Receita”.

Temperatura (Celsius) Receita
28,2 US$ 44
21,4 US$ 23
32,9 US$ 43
24,0 US$ 30
etc. etc.

A equação de regressão que descreve a relação entre “Temperatura” e “Receita” é:

Receita = 2,7 * Temperatura – 35

Digamos que, um dia, a temperatura na barraquinha de limonada foi de 30,7 graus, e a “Receita” foi de US$ 50. US$ 50 é o resultado observado ou real , o valor que realmente aconteceu.

Então, se inserirmos 30,7 no nosso valor para “Temperatura”…

Receita = 2,7 * 30,7 – 35
Receita = 48

…obtemos US$ 48. Esse é o valor previsto para aquele dia, também conhecido como o valor para “Receita”, a equação de regressão teria previsto com base na “Temperatura”.

Seu modelo nem sempre está perfeitamente certo, é claro. Neste caso, a previsão é desativada por 2; essa diferença, a 2, é chamada de resíduo. O resíduo é o bit que resta quando você subtrai o valor previsto do valor observado.

Residual = Observado – Previsão

Você pode imaginar que cada linha de dados agora tem, além disso, um valor previsto e um residual.

Temperatura
(Celsius)
Receita
(observada)
Receita
(prevista)
Residual
(observado – previsto)
28,2 US$ 44 US$ 41 US$ 3
21,4 US$ 23 US$ 23 US$ 0
32,9 US$ 43 US$ 54 -US$ 11
24,0 US$ 30 US$ 29 US$ 1
etc. etc. etc. etc.

Vamos usar os valores observados, previstos e residuais para avaliar e melhorar o modelo.

Entendendo a precisão com Observado vs. Previsto

Em um modelo simples como este, com apenas duas variáveis, você pode ter uma noção da precisão do modelo apenas relacionando “Temperatura” a “Receita”. Aqui está a mesma execução de regressão em duas barracas de limonada diferentes, uma onde o modelo é muito preciso, outra onde o modelo não é:

É claro que, para ambos as barracas de limonada, uma “Temperatura” mais alta está associada à maior “Receita”. Mas em uma dada “Temperatura”, você poderia prever que a “Receita” da barraca de limonada esquerda fica muito mais precisa do que a barraca de limonada direita, o que significa que o modelo é muito mais preciso.

Mas a maioria dos modelos tem mais de uma variável explicativa e não é prático representar mais variáveis em um gráfico como esse. Em vez disso, vamos representar os valores previstos em relação aos valores observados para esses mesmos conjuntos de dados.

Novamente, o modelo para o gráfico à esquerda é muito preciso; há uma forte correlação entre as previsões do modelo e seus resultados reais. O modelo para o gráfico na extrema direita é o oposto; as previsões do modelo não são muito boas.

Observe que esses gráficos se parecem exatamente com a “Temperatura” vs. “Receita” acima deles, mas o eixo x é previsto “Receita” ao invés de “Temperatura“. Isso é comum quando sua equação de regressão só tem uma variável explicativa. No entanto, com mais frequência, você terá múltiplas variáveis explicativas, e esses gráficos terão uma aparência bem diferente de um diagrama de qualquer variável explicativa vs. “Receita.”

Examinando Previsto vs. Residual (“O lote residual”)

A forma mais útil de plotar os resíduos, no entanto, é com seus valores previstos no eixo x e seus resíduos no eixo y.

(O Stats iQ apresenta resíduos como resíduos padronizados, o que significa que cada gráfico residual que você observa com qualquer modelo está no mesmo eixo y padronizado.)

No gráfico à direita, cada ponto é um dia, onde a previsão feita pelo modelo está no eixo x e a precisão da previsão está no eixo y. A distância da linha em 0 é o quão ruim foi a previsão para esse valor.

Uma vez que…

Residual = Observado – Previsto

…valores positivos para o residual (no eixo y) significam que a previsão era muito baixa, e valores negativos significam que a previsão era muito alta; 0 significa que o palpite estava exatamente correto.

Idealmente, a sua representação dos resíduos tem o seguinte aspecto:

Ou seja,
(1) eles são bem distribuídos simetricamente, tendendo a se aglomerar no meio do gráfico.
(2) eles estão agrupados em torno dos dígitos individuais mais baixos do eixo y (por exemplo, 0,5 ou 1,5, não 30 ou 150).
(3) em geral, não há nenhum padrão claro.

Veja algumas parcelas residuais que não atendem a esses requisitos:

Esses diagramas não estão uniformemente distribuídas verticalmente, ou têm um contorno externo, ou têm uma forma clara para eles.

Se você conseguir detectar um padrão ou uma tendência clara em seus resíduos, seu modelo terá espaço para melhorias.

Em um segundo, vamos detalhar o porquê e o que fazer a respeito.

Parcela residual Q-Q normal:

Clique em Mostrar parcela residual Q-Q normal para exibir uma parcela Q-Q avaliando a distorção de dados e o ajuste do modelo. Este gráfico exibe os resíduos padronizados no eixo y e os quantis teóricos no eixo x.

 Dados alinhados com a linha pontilhada indicam uma distribuição normal. Se os pontos se afastarem drasticamente da linha, você pode considerar ajustar seu modelo adicionando ou removendo outras variáveis no modelo de regressão.

Quanto importa se meu modelo não é perfeito?

Até que ponto você deveria estar preocupado se seu modelo não é perfeito, se seus resíduos parecem um pouco insalubres?  Depende de você.

Se você está publicando sua tese em física de partículas, provavelmente quer ter certeza de que seu modelo é o mais preciso possível. Se você está tentando fazer uma análise rápida e suja da barraca de limonada de seu sobrinho, um modelo menos do que perfeito pode ser bom o suficiente para responder a quaisquer perguntas que você tenha (por exemplo, se “Temperatura” parece afetar “Receita”).

Na maioria das vezes, um modelo decente é melhor do que nenhum. Portanto, pegue seu modelo, tente melhorá-lo e decida se a precisão é boa o suficiente para ser útil para seus fins.

Exemplo de parcelas residuais e seus diagnósticos

Se você não tiver certeza do que é um resíduo, reserve cinco minutos para ler o que está acima e volte aqui.

Abaixo está uma galeria de parcelas residuais insalubres. Seu resíduo pode parecer um tipo específico abaixo ou alguma combinação.

Se o seu parecer com um dos itens abaixo, clique nesse residual para entender o que está acontecendo e aprender a corrigi-lo.

(Durante a explicação, usaremos a “Receita” de uma barraquinha de limonada em comparação com a “Temperatura” desse dia como um conjunto de dados de exemplo.)

Desequilíbrio no eixo Y

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Heteroscedasticidade

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Não linear

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Anomalias

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Pontos de dados grandes do eixo Y

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Eixo X desbalanceado

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Mostrar detalhes sobre esta parcela e como corrigi-la.

Melhorando seu modelo: avaliação do impacto de um valor atípico

Vamos supor que você tem um ponto de dados distante que é legítimo, não uma medição ou um erro de dados. Para decidir como avançar, você deve avaliar o impacto do ponto de dados na regressão.

A maneira mais fácil de fazer isso é anotar os coeficientes do seu modelo atual e filtrar esse ponto de dados da regressão. Se o modelo não muda muito, então você não tem muito com o que se preocupar.

Se isso modificar o modelo significativamente, examine o modelo (especialmente real vs. previsto) e decida qual deles é melhor para você. Não há problema em descartar o mais distante, desde que você possa teoricamente defender isso, dizendo: “Neste caso, não estamos interessados em anomalias, eles simplesmente não são de interesse”, ou “Esse foi o dia em que o tio Jerry veio comprar e me deu uma gorjeta de 100 dólares; isso não é previsível e não vale a pena incluir no modelo”.

Melhorando seu modelo: transformando variáveis

Visão geral

A forma mais comum de melhorar um modelo é transformar uma ou mais variáveis, geralmente usando uma transformação “log”.

A transformação de uma variável muda a forma de sua distribuição. Normalmente, o melhor lugar para começar é uma variável que tem uma distribuição assimétrica, em oposição a uma distribuição mais simétrica ou em forma de sino. Encontre uma variável como esta para transformar:

Em geral, os modelos de regressão funcionam melhor com curvas mais simétricas em forma de sino. Experimente diferentes tipos de transformações até atingir a mais próxima dessa forma. Muitas vezes não é possível chegar perto disso, mas esse é o objetivo. Então, digamos que você pegue a raiz quadrada da “Receita” como uma tentativa de chegar a uma forma mais simétrica, e sua distribuição tem o seguinte aspecto:

Isso é bom, mas ainda é um pouco assimétrico. Vamos tentar tomar o log da “Receita” em vez disso, o que produz esta forma:

Isso é agradável e simétrico. Você provavelmente vai obter um modelo de regressão melhor com log (“Receita”) em vez de “Receita”. De fato, veja como sua equação, seus resíduos e seu coeficiente de determinação podem mudar:

O Stats iQ mostra uma versão pequena da distribuição da variável em linha com a equação de regressão:

Selecione o botão fx de transformação à esquerda da variável…

…em seguida, selecione uma transformação, na maioria das vezes log(x)...

…depois examine o histograma para ver se ele está mais centrado, como este é depois da transformação:

Após a transformação de uma variável, observe como sua distribuição, o coeficiente de determinação da regressão e os padrões do diagrama residual mudam. Se isso melhorar (especialmente o coeficiente de determinação e os resíduos), provavelmente é melhor manter a transformação.

Se for necessária uma transformação, você deve começar por uma transformação “log”, pois os resultados do seu modelo ainda serão fáceis de entender. Observe que você encontrará problemas se os dados que você está tentando transformar incluírem zeros ou valores negativos. Para saber por que usar um registro é tão útil, ou se você tem números não positivos que deseja transformar, ou se você só quer obter uma melhor compreensão do que está acontecendo quando transforma dados, leia os detalhes abaixo.

Detalhes

Calcular o log10() de um número é o mesmo que perguntar “10 elevado a que potência resulta nesse número?”. Por exemplo, aqui está uma tabela simples de quatro pontos de dados, incluindo “Receita” e Log (“Receita”):

Temperatura Receita Log (Receita)
20 100 2
30 1.000 3
40 10.000 4
45 31.623 4,5

Observe que se plotarmos “Temperatura” vs. “Receita” e “Temperatura” vs. Log (“Receita”), o último modelo se ajusta muito melhor.

O interessante sobre essa transformação é que sua regressão não é mais linear. Quando “Temperatura” passou de 20 para 30, “Receita” passou de 10 para 100, um gap de 90 unidades. Então, quando “Temperatura” passou de 30 para 40, “Receita” passou de 100 para 1000, um gap muito maior.

Se você calculou um log da sua variável de resposta, não significa mais que um aumento de uma unidade em “Temperatura” resulta em um aumento de X unidades em “Receita”. Agora é um aumento de Xpor cento  na “Receita”. Neste caso, um aumento de dez unidades em “Temperatura” está associado a um aumento de 1000% em Y – ou seja, um aumento de uma unidade em “Temperatura” está associado a um aumento de 26% na “Receita”.

Observe também que você não pode pegar o log de 0 ou de um número negativo (não há X onde 10X = 0 ou 10X= -5), então se você fizer uma transformação de log, perderá esses pontos de dados da regressão. Existem 4 formas comuns de lidar com a situação:

Pegue uma raiz quadrada ou uma raiz cúbica. Eles não mudarão a forma da curva tão drasticamente quanto tomar um log, mas permitem que os zeros permaneçam na regressão.
Se não são muitas linhas de dados que têm um zero, e essas linhas não são teoricamente importantes, você pode decidir continuar com o log e perder algumas linhas da sua regressão.
Em vez de utilizar log(y), tome log(y+1), de modo que zeros se tornem um e, em seguida, podem ser mantidos na regressão. Isto distorce um pouco o seu modelo e é um pouco desfavorável, mas na prática, seus efeitos colaterais negativos são tipicamente bem menores.

Melhorando seu modelo: variáveis ausentes

Provavelmente a razão mais comum de um modelo não se ajustar é que nem todas as variáveis corretas estão incluídas. Esse problema em particular tem muitas soluções possíveis.

Adição de uma nova variável

Às vezes, a correção é tão fácil quanto adicionar outra variável ao modelo. Por exemplo, se o movimento na barraca de limonada for muito maior nos fins de semana do que durante a semana, seu diagrama previsto vs. real pode ter o seguinte aspecto (coeficiente de determinação de 0,053), uma vez que o modelo está pegando apenas a média de dias de fim de semana e dias da semana:

Se o modelo incluir uma variável chamada “Final de semana”, então o diagrama previsto vs. real pode ter o seguinte aspecto (coeficiente de determinação de 0,974):

O modelo faz previsões muito mais precisas porque consegue levar em conta se um dia da semana é um dia da semana ou não.

Observe que, às vezes, você precisará criar variáveis no Stats iQ para melhorar seu modelo dessa forma. Por exemplo, você pode ter tido uma variável “Data” (com valores como “26/10/2014”) e pode precisar criar uma nova variável chamada “Dia da semana” (ou seja, domingo) ou fim de semana (ou seja, fim de semana).

Variável omitida indisponível

Mas raramente é assim tão fácil. Muitas vezes, a variável relevante não está disponível porque você não sabe o que é ou foi difícil coletar. Talvez não fosse uma questão de fim de semana vs. dia da semana, mas algo como “Número de concorrentes na área” que você não conseguiu coletar na hora.

Se a variável de que você precisa está indisponível, ou você nem sabe o que seria, então seu modelo não pode ser realmente melhorado e você tem que avaliá-la e decidir o quão feliz você está com ela (seja útil ou não, mesmo que seja falha).

Interações entre variáveis

Talvez nos finais de semana a barraca de limonada esteja sempre vendendo a 100% da capacidade, portanto independente da “Temperatura”, a “Receita” é alta. Mas nos dias de semana, a barraca de limonada é muito menos movimentada, então “Temperatura”  é um importante condutor da “Receita”. Se você executou uma regressão que incluía “Fim de semana”  e “Temperatura”, poderá ver um diagrama previsto vs. real como este, em que a linha ao longo do topo são os dias de fim de semana.

Nós diríamos que há uma interação entre “Fim de semana” e “Temperatura”; o efeito de um deles sobre “Receita” é diferente com base no valor do outro. Se criarmos uma variável de interação, obtemos um modelo muito melhor, em que previsto vs. real tem a seguinte aparência:

Melhorando seu modelo: corrigindo a não linearidade

Digamos que você tem uma relação que se parece com isto:

Você pode notar que a forma é a de uma parábola, a qual você pode recordar está normalmente associada a fórmulas que têm o seguinte aspecto:

y = x2 + x + 1

Por padrão, a regressão usa um modelo linear assim:

y = x + 1

Na verdade, a linha no gráfico acima tem esta fórmula:

y = 1,7x + 51

Mas é um péssimo ajuste. Assim, se adicionarmos um termo x2 , nosso modelo tem uma melhor chance de encaixar-se na curva. Na verdade, ele cria o seguinte:

A fórmula para essa curva é:

y = -2x2 +111x – 1408

Isso significa que nossos gráficos de diagnóstico mudam a partir disso…

…para isto:

Note-se que estes são gráficos de diagnóstico saudáveis, embora os dados pareçam estar desequilibrados para o lado direito.

O método acima pode ser estendido para outros tipos de formas, particularmente uma curva em forma de S, adicionando um termo x3. No entanto, isso é relativamente incomum.

Alguns cuidados:

  • De um modo geral, se você tiver um termo x2 devido a um modelo não linear em seus dados, você quer ter um termo simples-antigo-x-não-x2 . Você pode achar que seu modelo é perfeitamente bom sem ele, mas você deve definitivamente tentar ambos para começar.
  • A equação de regressão pode ser de difícil compreensão. Para a equação linear no início desta seção, para cada unidade adicional de “Temperatura“, “Receita” subiu 1,7 unidades. Quando você tem x2 e x na equação, não é fácil dizer “Quando a temperatura sobe um grau, aqui está o que acontece”. Às vezes, por essa razão, é mais fácil usar apenas uma equação linear, assumindo que a equação se encaixa bem o suficiente.

Perguntas frequentes

Como crio uma nova variável do Stats iQ?

Quais são as opções para analisar meus dados no Stats iQ?

Não sei o que esse termo estatístico significa. Você pode me dizer?

Como filtro os dados que aparecem no Stats iQ?

Como faço para que minhas novas respostas apareçam no Stats iQ?

Como os cartões de análise são pedidos no meu espaço de trabalho do Stats iQ?

O que é Stats iQ? / Onde está o Statwing?

O que faço se meus dados não estiverem sendo carregados corretamente?

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.

Isto foi útil?

O feedback que você envia aqui é usado apenas para ajudar a melhorar essa página.

Isso é ótimo! Obrigado pelo seu feedback!

Obrigado pelo seu feedback!