Ir para o conteúdo principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Interpretando parcelas residuais para melhorar sua regressão


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Ao executar uma regressão, o Stats iQ calcula e parcela os resíduos automaticamente para ajudá-lo a entender e melhorar seu modelo de regressão. Leia abaixo para saber tudo o que você precisa descobrir sobre a interpretação de resíduos (incluindo definições e exemplos).

Observações, previsões e resíduos

Para demonstrar como interpretar resíduos, usaremos um conjunto de dados de barraquinha de limonada, onde cada linha representa um dia de “Temperatura” e “Receita”.

Temperatura (Celsius) Receita
28,2 US$ 44
21,4 US$ 23
32,9 US$ 43
24,0 US$ 30
etc. etc.

 

A equação de regressão que descreve a relação entre “Temperatura” e “Receita” é:

Receita = 2,7 * Temperatura – 35

Digamos que um dia na barraca de limonada foi de 30,7 graus e “Receita” foi de US$ 50. Que 50 é o resultado observado ou real , o valor que realmente aconteceu.

Então, se inserirmos 30,7 em nosso valor para “Temperatura”…

Receita = 2,7 * 30,7 – 35
Receita = 48

…recebemos $ 48. Esse é o valor previsto para aquele dia, também conhecido como o valor para “Receita”, a equação de regressão teria previsto com base na “Temperatura”.

Seu modelo nem sempre está perfeitamente certo, é claro. Neste caso, a previsão é desativada por 2; essa diferença, a 2, é chamada de resíduo. O resíduo é o bit que resta quando você subtrai o valor previsto do valor observado.

Residual = Observado – Previsto

Você pode imaginar que cada linha de dados agora tem, além disso, um valor previsto e um resíduo.

Temperatura
(Celsius)
Receita
(Observado)
Receita
(Previsto)
Resíduo
(Observado – Previsto)
28,2 US$ 44 US$ 41 US$ 3
21,4 US$ 23 US$ 23 US$ 0
32,9 US$ 43 US$ 54 -US$ 11
24,0 US$ 30 US$ 29 US$ 1
etc. etc. etc. etc.

 

Vamos usar os valores observados, previstos e residuais para avaliar e melhorar o modelo.

Entendendo a precisão com Observado vs. Previsto

Em um modelo simples como este, com apenas duas variáveis, você pode ter uma noção da precisão do modelo apenas relacionando “Temperatura” a “Receita”. Aqui está a mesma execução de regressão em duas barracas de limonada diferentes, uma onde o modelo é muito preciso, outra onde o modelo não é:
Gráfico de previsões de modelo precisas versus imprecisas

É claro que, para ambos as barracas de limonada, uma “Temperatura” mais alta está associada à maior “Receita”. Mas em uma dada “Temperatura”, você poderia prever que a “Receita” da barraca de limonada esquerda fica muito mais precisa do que a barraca de limonada direita, o que significa que o modelo é muito mais preciso.

Mas a maioria dos modelos tem mais de uma variável explicativa e não é prático representar mais variáveis em um gráfico como esse. Em vez disso, vamos representar os valores previstos em relação aos valores observados para esses mesmos conjuntos de dados.
Gráficos de valores previstos em relação aos valores reais para modelos precisos e imprecisos

Novamente, o modelo para o gráfico à esquerda é muito preciso; há uma forte correlação entre as previsões do modelo e seus resultados reais. O modelo para o gráfico na extrema direita é o oposto; as previsões do modelo não são muito boas.

Observe que estes gráficos se parecem exatamente com os gráficos “Temperatura”  vs. “Receita” acima deles, mas o eixo x é previsto “Receita” ao invés de “Temperatura“. Isso é comum quando sua equação de regressão só tem uma variável explicativa. No entanto, com mais frequência, você terá múltiplas variáveis explicativas, e esses gráficos terão uma aparência bem diferente de um diagrama de qualquer variável explicativa vs. “Receita.”

Examinando Previsto vs. Residual (“O lote residual”)

A forma mais útil de plotar os resíduos, no entanto, é com seus valores previstos no eixo x e seus resíduos no eixo y.

(O Stats iQ apresenta resíduos como resíduos padronizados, o que significa que cada gráfico residual que você observa com qualquer modelo está no mesmo eixo y padronizado.)
Gráfico de valores previstos versus reais e gráfico de resíduos padronizados

No gráfico à direita, cada ponto é um dia, onde a previsão feita pelo modelo está no eixo x e a precisão da previsão está no eixo y. A distância da linha em 0 é o quão ruim foi a previsão para esse valor.

Desde…

Residual = Observado – Previsto

…valores positivos para o resíduo (no eixo y) significam que a previsão foi muito baixa, e os valores negativos significam que a previsão foi muito alta; 0 significa que o palpite estava exatamente correto.

Idealmente, o seu diagrama dos resíduos tem o seguinte aspecto:
Exemplos de diagramas residuais padronizados ideais

Ou seja,
(1) eles são distribuídos simetricamente, tendendo a ter um cluster no meio do enredo.
(2) eles estão em cluster em torno dos dígitos individuais inferiores do eixo y (por exemplo, 0,5 ou 1,5, não 30 ou 150).
(3) Em geral, não existem padrões claros.

Estes são alguns diagramas residuais que não atendem a esses requisitos:
Exemplos de diagramas residuais padronizados indesejáveis

Esses diagramas não estão uniformemente distribuídas verticalmente, ou têm um contorno externo, ou têm uma forma clara para eles.

Se você conseguir detectar um padrão ou uma tendência clara em seus resíduos, seu modelo terá espaço para melhorias.

Em um segundo, vamos detalhar o porquê e o que fazer a respeito.

Parcela residual Q-Q normal:

Clique em Mostrar diagrama de Q-Q residual normal para exibir um gráfico Q-Q que avalia a assimetria de dados e o ajuste do modelo. Este gráfico exibe os resíduos padronizados no eixo y e os quantis teóricos no eixo x.

Mostra uma distribuição QQ para ajuste do modelo disponível em regressões lineares de stats iQ.  Dados alinhados com a linha pontilhada indicam uma distribuição normal. Se os pontos se afastarem drasticamente da linha, você pode considerar ajustar seu modelo adicionando ou removendo outras variáveis no modelo de regressão.

Quanto importa se meu modelo não é perfeito?

Até que ponto você deveria estar preocupado se seu modelo não é perfeito, se seus resíduos parecem um pouco insalubres?  Depende de você.

Se você está publicando sua tese em física de partículas, provavelmente quer ter certeza de que seu modelo é o mais preciso possível. Se você está tentando fazer uma análise rápida e suja da barraca de limonada de seu sobrinho, um modelo menos do que perfeito pode ser bom o suficiente para responder a quaisquer perguntas que você tenha (por exemplo, se “Temperatura” parece afetar “Receita”).

Na maioria das vezes, um modelo decente é melhor do que nenhum. Portanto, pegue seu modelo, tente melhorá-lo e decida se a precisão é boa o suficiente para ser útil para seus fins.

Exemplo de parcelas residuais e seus diagnósticos

Se você não tiver certeza do que é um resíduo, reserve cinco minutos para ler o que está acima e volte aqui.

Abaixo está uma galeria de parcelas residuais insalubres. Seu resíduo pode parecer um tipo específico abaixo ou alguma combinação.

Se o seu parecer com um dos itens abaixo, clique nesse residual para entender o que está acontecendo e aprender a corrigi-lo.

(Durante a explicação, usaremos a “Receita” de uma barraquinha de limonada em comparação com a “Temperatura” desse dia como um conjunto de dados de exemplo.)

Desequilíbrio no eixo Y

Diagrama residual com eixo Y desequilibrado

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Problema

Imagine que, por qualquer motivo, sua barraca de limonada normalmente tem receita baixa, mas de vez em quando você obtém dias de receita muito alta, de tal forma que “Receita” parecia assim…

Histograma distorcido de Receita para exemplo da barraca de limonada

…em vez de algo mais simétrico e em forma de sino assim:

Histograma simétrico de Receita para o exemplo da barraca de limonada

Então “Temperatura” vs. “Receita” pode parecer assim, com a maioria dos dados agrupados na parte inferior…

Temperatura versus receita para dados de limonada distorcidos

A linha preta representa a equação do modelo, a previsão do modelo da relação entre “Temperatura” e “Receita”. Veja acima cada previsão feita pela linha preta para uma determinada “Temperatura” (por exemplo, em “Temperatura” 30, “Receita” está previsto para ser cerca de 20). Você pode ver que a maioria dos pontos está abaixo da linha (ou seja, a previsão foi muito alta), mas alguns pontos estão muito acima da linha (ou seja, a previsão foi muito baixa).

Traduzindo esses mesmos dados para os gráficos de diagnóstico, a maioria das previsões da equação é um pouco alta demais, e então algumas seriam muito baixas.

Diagramas previstos versus reais e residuais para exemplo da limonada

Implicações

Isso quase sempre significa que seu modelo pode ser tornado significativamente mais preciso. Na maioria das vezes, você verá que o modelo estava direcionado corretamente, mas bastante impreciso em relação a uma versão melhorada. Não é incomum corrigir um problema como este e, consequentemente, ver o salto de coeficiente de determinação do modelo de 0,2 para 0,5 (em uma escala de 0 a 1).

Como corrigir

  • A solução para isto é quase sempre transformar seus dados, normalmente sua variável de resposta .
  • Também é possível que seu modelo não tenha uma variável.

Heteroscedasticidade

Diagramas residuais demonstrando heterocedasticidade

 

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Problema

Esses diagramas exibem “heteroscedasticidade”, o que significa que os resíduos ficam maiores à medida que a previsão se move de pequena para grande (ou de grande para pequena).

Imagine que em dias frios, a quantidade de receita é muito consistente, mas em dias mais quentes, às vezes a receita é muito alta e às vezes é muito baixa.

Você veria gráficos como estes:

Heteroscedasticidade em diagramas para exemplo de limonada

Implicações

Isso não cria inerentemente um problema, mas muitas vezes é um indicador de que seu modelo pode ser melhorado.

A única exceção aqui é que se seu tamanho de amostra for inferior a 250, e você não puder corrigir o problema usando os valores de p abaixo, seus valores de p podem ser um pouco maiores ou menores do que deveriam ser, portanto, possivelmente uma variável que esteja correta na margem de importância pode acabar erroneamente no lado errado dessa margem. Seus coeficientes de regressão (o número de unidades de “Receita” muda quando a “Temperatura” sobe um) ainda serão precisos, no entanto.

Como corrigir

  • A solução bem-sucedida mais frequente é transformar uma variável.
  • Muitas vezes, a heteroscedasticidade indica que uma variável está ausente.

Não linear

Diagramas residuais não lineares

 

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Problema

Imagine que é difícil vender limonada em dias frios, fácil vendê-la em dias quentes e difícil vendê-la em dias muito quentes (talvez porque ninguém saia de sua casa em dias muito quentes).

Esse diagrama ficaria assim:

Temperatura versus Receita onde os dados parecem parabólicos

O modelo, representado pela linha, é terrível. As previsões estariam desviadas, o que significa que seu modelo não representa com precisão a relação entre “Temperatura” e “Receita”.

Assim, os resíduos ficariam desta forma:

Gráficos não lineares para Previsto versus Real e Resíduos

Implicações

Se seu modelo estiver desviado, como no exemplo acima, suas previsões serão bastante inúteis (e você notará um coeficiente de determinação muito baixo, como o coeficiente de determinação 0,027 para o acima).

Outras vezes, um ajuste um pouco abaixo do ideal ainda lhe dará uma boa noção geral da relação, mesmo que não seja perfeito, como abaixo:

Diagrama de ajuste não-linear aceitável, mas abaixo do ideal

Esse modelo parece bastante preciso. Se você olhar de perto (ou se olhar os resíduos), pode dizer que há um pouco de um padrão aqui – que os pontos estão em uma curva que a linha não corresponde bem.

O previsto versus real parece ok, mas os resíduos são não lineares

Isso importa? Depende de você. Se você está conseguindo uma rápida compreensão da relação, sua reta é uma aproximação bem decente. Se você for usar este modelo para previsão e não para explicação, o modelo mais preciso possível provavelmente levaria em conta essa curva.

Como corrigir

  • Às vezes, padrões como este indicam que uma variável precisa ser transformada.
  • Se o padrão for realmente tão claro quanto esses exemplos, você provavelmente precisará criar um modelo não linear (não é tão difícil quanto parece).
  • Ou, como sempre, é possível que o problema seja uma variável ausente.

Anomalias

Diagramas mostrando anomalias

 

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Problema

E se um de seus pontos de referência tivesse uma “Temperatura” de 80 em vez dos normais 20 e 30? Seus diagramas teriam o seguinte aspecto:

Diagramas de temperatura versus receita com um ponto de temperatura distante

Essa regressão tem um ponto de dados distante em uma variável de entrada, “Temperatura” (anomalias em uma variável de entrada também são conhecidas como “pontos de alavancagem”).

E se um de seus pontos de referência tivesse US$ 160 em receita em vez dos normais US$ 20 – US$ 60? Seus diagramas teriam o seguinte aspecto:

Diagramas de temperatura versus receita com um ponto de receita distante

Essa regressão tem um ponto de dados distante em uma variável de saída, “Receita”.

Implicações

O Stats iQ executa um tipo de regressão que geralmente não é afetado por anomalias de saída (como o dia com receita de $ 160), mas é afetado por anomalias de entrada (como uma “Temperatura” nos 80). No pior caso, seu modelo pode se articular para tentar se aproximar daquele ponto às custas de estar perto de todos os outros e acabar sendo completamente errado, assim:

Diagrama de modelos com e sem ponto de temperatura distante

A linha azul é provavelmente como você gostaria que seu modelo fosse exibido, e a linha vermelha é o modelo que você poderá ver se tiver esse valor atípico em “Temperatura” 80.

Como corrigir

  • É possível que se trate de um erro de medição ou de entrada de dados, em que a anomalia está incorreta e, nesse caso, você deve eliminá-la.
  • É possível que o que parece ser apenas um par de anomalias seja, de fato, uma distribuição de forças. Considere transformar a variável se uma de suas variáveis tiver uma distribuição assimétrica (ou seja, não está remotamente em forma de sino).
  • Se for realmente um valor anômalo legítimo, você deve avaliar o impacto da anomalia.

Pontos de dados grandes do eixo Y

Diagramas residuais com pontos de dados grandes do eixo Y

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Problema

Imagine que há duas barracas concorrentes de limonada nas proximidades. Na maioria das vezes, apenas um está operacional, caso em que sua receita é consistentemente boa. Às vezes, nenhum deles é ativo e a receita sobe; em outros momentos, ambos estão ativos e a receita despenca.

“Receita” vs. “Temperatura” pode ser assim…

Temperatura versus receita para dados com grandes pontos de dados do eixo Y

…com essa linha superior sendo dias em que nenhuma outra posição aparece e a linha inferior sendo dias em que ambas as barracas estão nos negócios.

Isso resultaria em gráficos residuais:

Pontos de dados previstos versus reais e residuais para pontos de dados grandes do eixo Y

Ou seja, há muitos pontos de dados em ambos os lados de 0 que têm resíduos de 10 ou mais, o que significa que o modelo estava muito distante.

Agora, se você coletasse dados todos os dias para uma variável chamada “Número de barracas de limonada ativas”, você poderia adicionar essa variável ao seu modelo e esse problema seria corrigido. Mas muitas vezes você não tem os dados de que precisa (ou até mesmo um palpite sobre qual tipo de variável você precisa).

Implicações

Seu modelo não é inútil, mas definitivamente não é tão bom quanto se você tivesse todas as variáveis necessárias. Você ainda poderia usá-lo e poderia dizer algo como: “Esse modelo é bem preciso na maioria das vezes, mas depois de vez em quando fica muito distante”. Isso é útil? Provavelmente, essa é a sua decisão e depende de quais decisões você está tentando tomar com base em seu modelo.

Como corrigir

  • Embora essa abordagem não funcione no exemplo específico acima, quase sempre vale a pena olhar para ver se há uma oportunidade de transformar uma variável com utilidade.
  • No entanto, se isso não funcionar, você provavelmente precisará lidar com seu problema de variável ausente.

Eixo X desbalanceado

Diagramas residuais para dados em que o eixo X está desbalanceado

 

Mostrar detalhes sobre este diagrama e como corrigi-lo.

Problema

Imagine que a “Receita” é impulsionada pelo “tráfego a pé” nas proximidades, além ou em vez de apenas “Temperatura”. Imagine que, por qualquer motivo, sua barraca de limonada normalmente tem receita baixa, mas de vez em quando você obtém dias extremamente altos de receita, de modo que sua receita foi assim…

Histograma de tráfego a pé inclinado para a direita

…em vez de algo mais simétrico e em forma de sino assim:

Histograma de temperatura simétrica

Então “Tráfego a pé” vs. “Receita” pode ter o seguinte aspecto, com a maioria dos dados agrupados no lado esquerdo:

Diagrama de tráfego a pé versus receita

A linha preta representa a equação do modelo, a previsão do modelo da relação entre “tráfego a pé” e “Receita”. Você pode ver que o modelo não consegue realmente dizer a diferença entre o “tráfego a pé” de 0 e de, digamos, 100 ou 1.000; para cada um desses valores, ele preveria uma receita próxima de $ 53.

Traduzindo esses mesmos dados para os diagramas de diagnóstico:

Diagramas previstos versus reais e residuais para modelo de tráfego a pé

Implicações

Às vezes não há nada de errado com seu modelo. No exemplo acima, fica bem claro que esse não é um bom modelo, mas às vezes o gráfico residual está desequilibrado e o modelo é muito bom.

As únicas maneiras de dizer são para a) experimentar a transformação de seus dados e ver se você pode melhorá-los e b) olhar para o diagrama previsto vs. real e ver se sua previsão está muito errada para muitos pontos de dados, como no exemplo acima (mas diferente do exemplo abaixo).

Diagrama previsto aceitável versus real com um eixo X desequilibrado

Embora não exista uma regra explícita que diga que seu resídu não pode ser desequilibrado e ainda ser preciso (na verdade, esse modelo é bastante preciso), é mais frequente que um resíduo de eixo x desequilibrado signifique que seu modelo pode ser tornado significativamente mais preciso. Na maioria das vezes, você verá que o modelo estava direcionado corretamente, mas bastante impreciso em relação a uma versão melhorada. Não é incomum corrigir um problema como este e, consequentemente, ver o salto de coeficiente de determinação do modelo de 0,2 para 0,5 (em uma escala de 0 a 1).

Como corrigir

  • A solução para isso é quase sempre transformar seus dados, normalmente uma variável explicativa. (Observe que o exemplo mostrado abaixo fará referência à transformação de sua variável de resposta , mas o mesmo processo será útil aqui.)
  • Também é possível que seu modelo não tenha uma variável.

Melhorando seu modelo: avaliação do impacto de um valor atípico

Vamos supor que você tem um ponto de dados distante que é legítimo, não uma medição ou um erro de dados. Para decidir como avançar, você deve avaliar o impacto do ponto de dados na regressão.

A maneira mais fácil de fazer isso é anotar os coeficientes do seu modelo atual e filtrar esse ponto de dados da regressão. Se o modelo não muda muito, então você não tem muito com o que se preocupar.

Se isso modificar o modelo significativamente, examine o modelo (especialmente real vs. previsto) e decida qual deles é melhor para você. Não há problema em descartar o mais distante, desde que você possa teoricamente defender isso, dizendo: “Neste caso, não estamos interessados em anomalias, eles simplesmente não são de interesse”, ou “Esse foi o dia em que o tio Jerry veio comprar e me deu uma gorjeta de 100 dólares; isso não é previsível e não vale a pena incluir no modelo”.

Melhorando seu modelo: transformando variáveis

Visão geral

A forma mais comum de melhorar um modelo é transformar uma ou mais variáveis, geralmente usando uma transformação “log”.

A transformação de uma variável muda a forma de sua distribuição. Normalmente, o melhor lugar para começar é uma variável que tem uma distribuição assimétrica, em oposição a uma distribuição mais simétrica ou em forma de sino. Encontre uma variável como esta para transformar:

Histograma de receita inclinado à direita

Em geral, os modelos de regressão funcionam melhor com curvas mais simétricas em forma de sino. Experimente diferentes tipos de transformações até atingir a mais próxima dessa forma. Muitas vezes não é possível chegar perto disso, mas esse é o objetivo. Então, digamos que você pegue a raiz quadrada da “Receita” como uma tentativa de chegar a uma forma mais simétrica, e sua distribuição tem o seguinte aspecto:
Histograma da raiz quadrada da receita

Isso é bom, mas ainda é um pouco assimétrico. Vamos tentar tomar o log da “Receita” em vez disso, o que produz esta forma:
Histograma do log da receita

Isso é agradável e simétrico. Você provavelmente vai obter um modelo de regressão melhor com log (“Receita”) em vez de “Receita”. De fato, veja como sua equação, seus resíduos e seu coeficiente de determinação podem mudar:
Gráficos residuais de dados não transformados e transformados

O Stats iQ mostra uma pequena versão da distribuição da variável em linha com a equação de regressão:Stats I.Q. exibe um pequeno histograma de distribuição

Selecione o botão fx de transformação à esquerda da variável…

Selecione a opção de transformação à esquerda do nome da variável

…depois selecione uma transformação, na maioria das vezes log(x)...

Selecionar transformação da lista suspensa

…depois examine o histograma para ver se ele está mais centrado, como este é depois da transformação:
Histograma de transformação parece mais simétrico

Após a transformação de uma variável, observe como sua distribuição, o coeficiente de determinação da regressão e os padrões do diagrama residual mudam. Se isso melhorar (especialmente o coeficiente de determinação e os resíduos), provavelmente é melhor manter a transformação.

Se for necessária uma transformação, você deve começar por uma transformação “log”, pois os resultados do seu modelo ainda serão fáceis de entender. Observe que você encontrará problemas se os dados que você está tentando transformar incluírem zeros ou valores negativos. Para saber por que usar um registro é tão útil, ou se você tem números não positivos que deseja transformar, ou se você só quer obter uma melhor compreensão do que está acontecendo quando transforma dados, leia os detalhes abaixo.

Detalhes

Se você pegar o log10() de um número, você está dizendo “10 a que potência dá esse número”. Por exemplo, aqui está uma tabela simples de quatro pontos de dados, incluindo “Receita” e Log (“Receita”):

Temperatura Receita Log (Receita)
20 100 2
30 1.000 3
40 10.000 4
45 31.623 4,5

 

Observe que se nós plotarmos “Temperatura” vs. “Receita” e “Temperatura” vs. Log (“Receita”), o último modelo se ajusta muito melhor.
O diagrama do modelo transformado se ajusta melhor

O interessante sobre essa transformação é que sua regressão não é mais linear. Quando “Temperatura” passou de 20 para 30, “Receita” passou de 10 para 100, um gap de 90 unidades. Então, quando “Temperatura” passou de 30 para 40, “Receita” passou de 100 para 1000, um gap muito maior.

Se você tiver usado um log de sua variável de resposta , não é mais o caso de um aumento de uma unidade em “Temperatura” significar um aumento de unidade X em “Receita”. Agora é um aumento de Xpor cento  na “Receita”. Neste caso, um aumento de dez unidades em “Temperatura” está associado a um aumento de 1000% em Y – ou seja, um aumento de uma unidade em “Temperatura” está associado a um aumento de 26% na “Receita”.

Observe também que você não pode usar o log de 0 ou de um número negativo (não há X ,onde 10X = 0 ou 10X= -5), portanto, se você fizer uma transformação de log, perderá esses pontos de dados da regressão. Existem 4 formas comuns de lidar com a situação:

  1. Pegue uma raiz quadrada ou uma raiz cúbica. Eles não mudarão a forma da curva tão drasticamente quanto tomar um log, mas permitem que os zeros permaneçam na regressão.
  2. Se não são muitas linhas de dados que têm um zero, e essas linhas não são teoricamente importantes, você pode decidir continuar com o log e perder algumas linhas da sua regressão.
  3. Em vez de utilizar log(y), tome log(y+1), de modo que zeros se tornem um e, em seguida, podem ser mantidos na regressão. Isto distorce um pouco o seu modelo e é um pouco desfavorável, mas na prática, seus efeitos colaterais negativos são tipicamente bem menores.

Melhorando seu modelo: variáveis ausentes

Provavelmente a razão mais comum de um modelo não se ajustar é que nem todas as variáveis corretas estão incluídas. Esse problema em particular tem muitas soluções possíveis.

Adição de uma nova variável

Às vezes, a correção é tão fácil quanto adicionar outra variável ao modelo. Por exemplo, se o movimento na barraca de limonada for muito maior nos fins de semana do que durante a semana, seu diagrama previsto vs. real pode ter o seguinte aspecto (coeficiente de determinação de 0,053), uma vez que o modelo está pegando apenas a média de dias de fim de semana e dias da semana:
Diagrama de dados sem uma variável

Se o modelo incluir uma variável chamada “Final de semana”, então o diagrama previsto vs. real pode ter o seguinte aspecto (coeficiente de determinação de 0,974):
Diagrama de dados com segunda variável adicionada

O modelo faz previsões muito mais precisas porque consegue levar em conta se um dia da semana é um dia da semana ou não.

Observe que, às vezes, você precisará criar variáveis no Stats iQ para melhorar seu modelo dessa forma. Por exemplo, você pode ter tido uma variável “Data” (com valores como “26/10/2014”) e pode precisar criar uma nova variável chamada “Dia da semana” (ou seja, domingo) ou fim de semana (ou seja, fim de semana).

Variável omitida indisponível

Mas raramente é assim tão fácil. Muitas vezes, a variável relevante não está disponível porque você não sabe o que é ou foi difícil coletar. Talvez não fosse uma questão de fim de semana vs. dia da semana, mas algo como “Número de concorrentes na área” que você não conseguiu coletar na hora.

Se a variável de que você precisa está indisponível, ou você nem sabe o que seria, então seu modelo não pode ser realmente melhorado e você tem que avaliá-la e decidir o quão feliz você está com ela (seja útil ou não, mesmo que seja falha).

Interações entre variáveis

Talvez nos finais de semana a barraca de limonada esteja sempre vendendo a 100% da capacidade, portanto independente da “Temperatura”, a “Receita” é alta. Mas nos dias de semana, a barraca de limonada é muito menos movimentada, então “Temperatura”  é um importante condutor da “Receita”. Se você executou uma regressão que incluía “Fim de semana”  e “Temperatura”, poderá ver um diagrama previsto vs. real como este, em que a linha ao longo do topo são os dias de fim de semana.
Diagrama de modelo de duas variáveis sem interação

Nós diríamos que existe uma interação entre “Fim de semana” e “Temperatura”; o efeito de um deles em “Receita” é diferente com base no valor do outro. Se criarmos uma variável de interação, obtemos um modelo muito melhor, em que previsto vs. real tem a seguinte aparência:
Diagrama de modelo de duas variáveis com interação adicionada

Melhorando seu modelo: corrigindo a não linearidade

Digamos que você tem uma relação que se parece com isto:

Diagrama de dados não lineares com modelo linear

Você pode notar que a forma é a de uma parábola, a qual você pode recordar está normalmente associada a fórmulas que têm o seguinte aspecto:

y = x2 + x + 1

Por padrão, a regressão utiliza um modelo linear que se parece com isto:

y = x + 1

De fato, a linha no diagrama acima tem esta fórmula:

y = 1,7x + 51

Mas é um encaixe terrível. Assim, se adicionarmos um termo x2 , nosso modelo tem uma melhor chance de encaixar a curva. Na verdade, ele cria o seguinte:

Diagrama de dados não lineares com modelo não linear

A fórmula para essa curva é:

y = -2x2 +111x – 1408

Isso significa que nossos gráficos de diagnóstico mudam a partir disso…

Diagramas diagnósticos com modelo linear

…para isto:

Diagramas diagnósticos com modelo não linear

Note-se que estes são gráficos de diagnóstico saudáveis, embora os dados pareçam estar desequilibrados para o lado direito.

A abordagem acima pode ser estendida para outros tipos de formas, particularmente uma curva em forma de S, adicionando um termo x3 . No entanto, isso é relativamente incomum.

Alguns cuidados:

  • De um modo geral, se você tiver um termo x2 devido a um modelo não linear em seus dados, você quer ter um termo simples-antigo-x-não-x2 . Você pode achar que seu modelo é perfeitamente bom sem ele, mas você deve definitivamente tentar ambos para começar.
  • A equação de regressão pode ser de difícil compreensão. Para a equação linear no início desta seção, para cada unidade adicional de “Temperatura“, “Receita” subiu 1,7 unidades. Quando você tem x2 e x na equação, não é fácil dizer “Quando a temperatura sobe um grau, aqui está o que acontece”. Às vezes, por essa razão, é mais fácil usar apenas uma equação linear, assumindo que a equação se encaixa bem o suficiente.

Perguntas frequentes

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.