Interpretando parcelas residuais para melhorar sua regressão

Suite

Customer Experience Employee Experience Strategy & Research

Produto

Qualtrics

O que há nesta página

Ao executar uma regressão, o Stats iQ calcula e parcela os resíduos automaticamente para ajudá-lo a entender e melhorar seu modelo de regressão. Leia abaixo para saber tudo o que você precisa descobrir sobre a interpretação de resíduos (incluindo definições e exemplos).

Observações, previsões e resíduos

Para demonstrar como interpretar resíduos, usaremos um conjunto de dados de barraquinha de limonada, onde cada linha representa um dia de “Temperatura” e “Receita”.

Temperatura (Celsius)	Receita
28,2	US$ 44
21,4	US$ 23
32,9	US$ 43
24,0	US$ 30
etc.	etc.

A equação de regressão que descreve a relação entre “Temperatura” e “Receita” é:

Receita = 2,7 * Temperatura – 35

Digamos que, um dia, a temperatura na barraquinha de limonada foi de 30,7 graus, e a “Receita” foi de US$ 50. US$ 50 é o resultado observado ou real , o valor que realmente aconteceu.

Então, se inserirmos 30,7 no nosso valor para “Temperatura”…

Receita = 2,7 * 30,7 – 35
Receita = 48

…obtemos US$ 48. Esse é o valor previsto para aquele dia, também conhecido como o valor para “Receita”, a equação de regressão teria previsto com base na “Temperatura”.

Seu modelo nem sempre está perfeitamente certo, é claro. Neste caso, a previsão é desativada por 2; essa diferença, a 2, é chamada de resíduo. O resíduo é o bit que resta quando você subtrai o valor previsto do valor observado.

Residual = Observado – Previsão

Você pode imaginar que cada linha de dados agora tem, além disso, um valor previsto e um residual.

Temperatura (Celsius)	Receita (observada)	Receita (prevista)	Residual (observado – previsto)
28,2	US$ 44	US$ 41	US$ 3
21,4	US$ 23	US$ 23	US$ 0
32,9	US$ 43	US$ 54	-US$ 11
24,0	US$ 30	US$ 29	US$ 1
etc.	etc.	etc.	etc.

Vamos usar os valores observados, previstos e residuais para avaliar e melhorar o modelo.

Entendendo a precisão com Observado vs. Previsto

Em um modelo simples como este, com apenas duas variáveis, você pode ter uma noção da precisão do modelo apenas relacionando “Temperatura” a “Receita”. Aqui está a mesma execução de regressão em duas barracas de limonada diferentes, uma onde o modelo é muito preciso, outra onde o modelo não é:

Gráfico de previsões de modelo precisas versus imprecisas

É claro que, para ambos as barracas de limonada, uma “Temperatura” mais alta está associada à maior “Receita”. Mas em uma dada “Temperatura”, você poderia prever que a “Receita” da barraca de limonada esquerda fica muito mais precisa do que a barraca de limonada direita, o que significa que o modelo é muito mais preciso.

Mas a maioria dos modelos tem mais de uma variável explicativa e não é prático representar mais variáveis em um gráfico como esse. Em vez disso, vamos representar os valores previstos em relação aos valores observados para esses mesmos conjuntos de dados.

Gráficos de valores previstos em relação aos valores reais para modelos precisos e imprecisos

Novamente, o modelo para o gráfico à esquerda é muito preciso; há uma forte correlação entre as previsões do modelo e seus resultados reais. O modelo para o gráfico na extrema direita é o oposto; as previsões do modelo não são muito boas.

Observe que esses gráficos se parecem exatamente com a “Temperatura” vs. “Receita” acima deles, mas o eixo x é previsto “Receita” ao invés de “Temperatura“. Isso é comum quando sua equação de regressão só tem uma variável explicativa. No entanto, com mais frequência, você terá múltiplas variáveis explicativas, e esses gráficos terão uma aparência bem diferente de um diagrama de qualquer variável explicativa vs. “Receita.”

Examinando Previsto vs. Residual (“O lote residual”)

A forma mais útil de plotar os resíduos, no entanto, é com seus valores previstos no eixo x e seus resíduos no eixo y.

(O Stats iQ apresenta resíduos como resíduos padronizados, o que significa que cada gráfico residual que você observa com qualquer modelo está no mesmo eixo y padronizado.)

Gráfico de valores previstos versus reais e gráfico de resíduos padronizados

No gráfico à direita, cada ponto é um dia, onde a previsão feita pelo modelo está no eixo x e a precisão da previsão está no eixo y. A distância da linha em 0 é o quão ruim foi a previsão para esse valor.

Uma vez que…

Residual = Observado – Previsto

…valores positivos para o residual (no eixo y) significam que a previsão era muito baixa, e valores negativos significam que a previsão era muito alta; 0 significa que o palpite estava exatamente correto.

Idealmente, a sua representação dos resíduos tem o seguinte aspecto:

Exemplos de parcelas residuais padronizadas ideais

Ou seja,
(1) eles são bem distribuídos simetricamente, tendendo a se aglomerar no meio do gráfico.
(2) eles estão agrupados em torno dos dígitos individuais mais baixos do eixo y (por exemplo, 0,5 ou 1,5, não 30 ou 150).
(3) em geral, não há nenhum padrão claro.

Veja algumas parcelas residuais que não atendem a esses requisitos:

Exemplos de diagramas residuais padronizados indesejáveis

Esses diagramas não estão uniformemente distribuídas verticalmente, ou têm um contorno externo, ou têm uma forma clara para eles.

Se você conseguir detectar um padrão ou uma tendência clara em seus resíduos, seu modelo terá espaço para melhorias.

Em um segundo, vamos detalhar o porquê e o que fazer a respeito.

Parcela residual Q-Q normal:

Clique em Mostrar parcela residual Q-Q normal para exibir uma parcela Q-Q avaliando a distorção de dados e o ajuste do modelo. Este gráfico exibe os resíduos padronizados no eixo y e os quantis teóricos no eixo x.

Mostra uma distribuição QQ para ajuste do modelo disponível em regressões lineares de stats iQ.

Dados alinhados com a linha pontilhada indicam uma distribuição normal. Se os pontos se afastarem drasticamente da linha, você pode considerar ajustar seu modelo adicionando ou removendo outras variáveis no modelo de regressão.

Quanto importa se meu modelo não é perfeito?

Até que ponto você deveria estar preocupado se seu modelo não é perfeito, se seus resíduos parecem um pouco insalubres? Depende de você.

Se você está publicando sua tese em física de partículas, provavelmente quer ter certeza de que seu modelo é o mais preciso possível. Se você está tentando fazer uma análise rápida e suja da barraca de limonada de seu sobrinho, um modelo menos do que perfeito pode ser bom o suficiente para responder a quaisquer perguntas que você tenha (por exemplo, se “Temperatura” parece afetar “Receita”).

Na maioria das vezes, um modelo decente é melhor do que nenhum. Portanto, pegue seu modelo, tente melhorá-lo e decida se a precisão é boa o suficiente para ser útil para seus fins.

Exemplo de parcelas residuais e seus diagnósticos

Se você não tiver certeza do que é um resíduo, reserve cinco minutos para ler o que está acima e volte aqui.

Abaixo está uma galeria de parcelas residuais insalubres. Seu resíduo pode parecer um tipo específico abaixo ou alguma combinação.

Se o seu parecer com um dos itens abaixo, clique nesse residual para entender o que está acontecendo e aprender a corrigi-lo.

(Durante a explicação, usaremos a “Receita” de uma barraquinha de limonada em comparação com a “Temperatura” desse dia como um conjunto de dados de exemplo.)

Desequilíbrio no eixo Y

Diagrama residual com eixo Y desequilibrado

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Problema

Imagine que, por qualquer motivo, sua barraca de limonada normalmente tem receita baixa, mas de vez em quando você obtém dias de receita muito alta, de tal forma que “Receita” parecia assim…

Histograma distorcido de Receita para exemplo da barraca de limonada

…em vez de algo mais simétrico e em forma de sino assim:

Histograma simétrico de Receita para o exemplo da barraca de limonada

Então “Temperatura” vs. “Receita” pode parecer assim, com a maioria dos dados agrupados na parte inferior…

Temperatura versus receita para dados de limonada distorcidos

A linha preta representa a equação do modelo, a previsão do modelo da relação entre “Temperatura” e “Receita”. Veja acima cada previsão feita pela linha preta para uma determinada “Temperatura” (por exemplo, em “Temperatura” 30, “Receita” está previsto para ser cerca de 20). Você pode ver que a maioria dos pontos está abaixo da linha (ou seja, a previsão foi muito alta), mas alguns pontos estão muito acima da linha (ou seja, a previsão foi muito baixa).

Traduzindo esses mesmos dados para os gráficos de diagnóstico, a maioria das previsões da equação é um pouco alta demais, e então algumas seriam muito baixas.

Diagramas previstos versus reais e residuais para exemplo da limonada

Implicações

Isso quase sempre significa que seu modelo pode ser tornado significativamente mais preciso. Na maioria das vezes, você verá que o modelo estava direcionado corretamente, mas bastante impreciso em relação a uma versão melhorada. Não é incomum corrigir um problema como este e, consequentemente, ver o salto de coeficiente de determinação do modelo de 0,2 para 0,5 (em uma escala de 0 a 1).

Como corrigir

A solução para isto é quase sempre transformar seus dados, normalmente sua variável de resposta .
Também é possível que seu modelo não tenha uma variável.