Ir para o conteúdo principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Guia fácil de usar para regressão linear


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


O que é regressão?

A regressão estima uma fórmula matemática que relaciona uma ou mais variáveis de entrada a uma variável de saída.

Por exemplo, digamos que você administre um estande de limonada e esteja interessado no que gera receita. Seus dados incluem “Receita” de cada dia, alta “Temperatura”, “Número de crianças que andaram por”, “Número de adultos que andaram”, que “Sinalização” você usou naquele dia e uma “Receita do concorrente” nas proximidades.

Receita Temperatura (Celsius) Minutos de tempo de parada Número de filhos que caminharam por Número de adultos que caminharam por Sinalização Receita do concorrente
US$ 44 28,2 30 43 380 Pintado à mão $20
US$ 23 21,4 42 28 207 LED US$ 30
US$ 43 32,9 14 43 364 Pintado à mão $34
US$ 30 24,0 24 18 103 LED $15
etc. etc. etc. etc. etc. etc. etc.

 

Você acha que “Temperatura” (uma variável de entrada ou explicativa) pode afetar “Receita” (uma variável de saída ou de resposta). Quando você usa a regressão para analisar essa relação, ela pode produzir esta fórmula:

Receita = 2,71 * Temperatura   –   35

Esta fórmula é útil por dois motivos.

Primeiro, permite que você entenda um relacionamento: dias mais quentes levam a mais “Receita”. Em particular, o 2,71 antes de “Temperatura” (chamado de coeficiente) significa que para cada grau “Temperatura” sobe, em média, haverá US$ 2,71 a mais “Receita”. Esse insight pode levá-lo a decidir não vender limonada em dias frios.

Em segundo lugar, e relacionado, ele também pode ajudar você a fazer previsões específicas. Se a “Temperatura” for 24, você pode estimar isso desde…

Receita = 2,71 * Temperatura   –   35
Receita = 2,71 * 24   –   35
Receita = 30

…você terá cerca de $30 em “Receita”. Essas podem ser informações úteis para saber se você conseguirá fazer um pagamento nesse dia, assumindo que está confiante de que seu modelo é preciso.

Agora vamos percorrer o processo de criação dessa equação de regressão.

Preparando para criar um modelo de regressão

1. Pense na teoria de sua regressão

Depois de escolher uma variável de resposta, “Receita” hipotetiza como várias entradas podem estar relacionadas a ela. Por exemplo, você pode pensar que a “Temperatura” mais alta levará a uma “Receita” mais alta, você pode não ter certeza de como várias sinalizações afetarão a “Receita“, e pode acreditar que as “Vendas do concorrente” são afetadas pela “Temperatura”, mas não têm impacto em seu estande de limonada.
Plano de relacionamento entre signatários, temporários, receitas e concorrentes

O objetivo da regressão é normalmente compreender a relação entre várias entradas e uma saída, então, neste caso, você provavelmente decidiria criar um modelo explicando “Receita” com “Temperatura” e “Sinalização” (também dito como “prever a Receita da Temperatura e da Sinalização, mesmo que você esteja mais interessado em explicação do que na previsão real).

Você provavelmente não incluiria “Vendas do concorrente” em sua regressão. É provável que esteja correlacionado com “Receita”, mas não vem antes dela na cadeia causal, então incluindo isso confundiria seu modelo.

2. “Descreva” todas as variáveis que podem ser úteis para seu modelo

Comece descrevendo a variável resposta, neste caso “Receita”, e obtendo uma boa sensação por ela. Faça o mesmo para suas variáveis explicativas.

Observe que têm uma forma como esta…
Histograma de variável inclinado à direita

…onde a maioria dos dados está nas primeiras lixeiras do histograma. Essas variáveis exigirão atenção especial posteriormente.

3. “Relacionar” todas as variáveis explicativas possíveis com a variável de resposta

O Stats iQ ordenará os resultados pela força da relação estatística. Dê uma olhada e sinta os resultados, observando quais variáveis estão relacionadas à “Receita” e como.

Se você já tiver uma boa ideia de quais variáveis devem conduzir teoricamente a saída (por exemplo, de trabalhos acadêmicos anteriores), você deve ignorar esta etapa. Mas se sua análise for um pouco mais exploratória (como uma pesquisa de cliente), esta é uma etapa útil e importante.

4. Iniciar a construção da regressão

A construção de um modelo de regressão é um processo iterativo. Você percorrerá as três fases a seguir quantas vezes forem necessárias.

Os três estágios da construção de um modelo de regressão

Fase 1: adicionar ou subtrair uma variável

Uma a uma, comece a adicionar variáveis que suas análises anteriores indicaram estarem relacionadas a “Receita” (ou adicione variáveis que você tem um motivo teórico para adicionar). Ir um por um não é estritamente necessário, mas facilita a identificação e a correção de problemas à medida que você avança e ajuda você a obter uma sensação para o modelo.

Digamos que você comece prevendo “Receita” com “Temperatura”. Você encontra uma relação forte, avalia o modelo e acha que é satisfatório (mais detalhes em um minuto).

Receita = 2,71 * Temperatura   –   35

Em seguida, você adiciona “Número de filhos que andaram por” e agora seu modelo de regressão tem dois termos, ambos estatisticamente significativos. Assim:

Receita = 2,5 * Temperatura   +   0.3 * NumberOfChildrenWhoWalkedBy   –   12

Em seguida, você adiciona “Número de adultos que andaram por” e os resultados do modelo agora mostram que “Número de adultos” é estatisticamente significativo no modelo, mas “Número de filhos” não é mais. Normalmente, você removeria “Número de filhos” do modelo. Agora temos:

Receita = 2,6 * Temperatura   +   0.4 * NumberOfAdultsWhoWalkedBy   –   14

Isso significa que “Número de adultos” é o melhor preditor de “Receita”; ou seja, se você souber quantos adultos chegam, saber em quantas crianças chegam não adiciona nenhuma informação nova – isso não o ajuda a prever vendas.

Talvez você pense e lembre-se de que as crianças realmente não compram sua limonada, por isso faz sentido que essa variável não pertença ao modelo.

Mas por que ela foi estatisticamente significativa no primeiro modelo? Provavelmente porque “Número de crianças” está correlacionado com “Número de adultos“, e como “Número de adultos” ainda não estava no modelo, “Número de crianças” estava agindo como uma proxy grosseira para “Número de adultos”.

Interpretar os resultados da regressão faz muito sentido e só porque uma variável é estatisticamente significativa não significa que ela seja realmente causal. Mas adicionando e subtraindo cuidadosamente variáveis, observando como o modelo muda e sempre pensando na teoria por trás de seu modelo, você pode separar relações interessantes em seus dados.

Etapa 2: Avaliar o modelo

Toda vez que você adiciona ou subtrai uma variável, você deve avaliar a precisão do modelo observando seu coeficiente de determinação (R2), AICR e seus gráficos residuais. Sempre que você modificar o modelo, compare os novos gráficos de coeficiente de determinação, AICR e residual com os antigos para determinar se o modelo melhorou ou não.

Coeficiente de determinação (R2)

A métrica numérica para quantificar a precisão da previsão do modelo é conhecida como coeficiente de determinação, que fica entre zero e um. Um zero significa que o modelo não tem valor preditivo e um significa que o modelo prevê tudo perfeitamente.

Por exemplo, o modelo à esquerda é mais preciso do que o da direita; ou seja, se você sabe “Temperatura”, você tem um palpite muito bom sobre o que “Receita” estará à esquerda, mas não realmente à direita.
Lotes de valores de coeficiente de determinação alto e baixo para temperatura versus receita

Não existe uma definição fixa de um coeficiente de determinação “bom”. Em algumas configurações, pode ser interessante ver qualquer efeito, enquanto em outras seu modelo pode ser inútil, a menos que seja altamente preciso.

Sempre que você adicionar uma variável, o coeficiente de determinação aumentará, portanto alcançar o maior coeficiente de determinação possível não é o objetivo; em vez disso, você quer equilibrar a precisão do modelo (coeficiente de determinação) com sua complexidade (geralmente, o número de variáveis nele).

AICR

A AICR é uma métrica que equilibra a precisão com complexidade – maior precisão leva a melhores pontuações, maior complexidade (mais variáveis) leva a pontuações piores. O modelo com a menor AICR é melhor.

Considere que a métrica AICR só é útil para comparar AICRs de modelos que têm o mesmo número de linhas de dados e a mesma variável de saída.

Intervalos de previsão

Outra forma útil de obter uma sensação de precisão do seu modelo é manter os valores de amostra em sua fórmula e ver o intervalo de previsão calculado pelo Stats iQ. Por exemplo, se você colocar o número 30 na fórmula, o Stats iQ informará que o valor previsto é 45,5, mas o intervalo de confiança de 95% é 36,4 a 54,5, o que significa que você pode ter 95% de certeza de que, se amanhã vier a ser 30 graus, você obteria entre US$ 36,40 e US$ 54,50 em “Receita”. Você poderia imaginar um modelo mais preciso onde o intervalo de previsão era uma banda apertada como $44 a $48, ou um menos preciso onde o intervalo era amplo, como $20 a $72.
Equação para calcular intervalos de previsão

Essa abordagem só é útil quando seus gráficos residuais parecem saudáveis (veja abaixo), caso contrário, eles serão imprecisos.

Residuais

Resíduos são a principal ferramenta de diagnóstico para avaliar e melhorar a regressão, por isso existe uma seção inteira separada sobre a interpretação de resíduos para melhorar seu modelo. Você aprenderá ou atualizará sua memória sobre o que são resíduos, como usá-los para avaliar e melhorar o modelo e como pensar na precisão do seu modelo.

Recomendamos que você a leia na íntegra, pois ela abrangerá tudo o que você precisa para produzir um ótimo modelo. Mas você sempre pode voltar a isso, é claro.

Etapa 3: modificar o modelo de acordo

Se sua avaliação do modelo tiver considerado satisfatória, você concluiu ou pode voltar para a Fase 1 e inserir mais variáveis.

Se sua avaliação encontrar o modelo faltando, você usará os alertas do Stats iQ e a seção de diagnóstico residual para corrigir os problemas.

Conforme você modifica o modelo, observe continuamente o coeficiente de determinação de modificações, a AICR e os diagnósticos residuais e decida se as modificações que você está efetuando estão ajudando ou prejudicando seu modelo.

Perguntas frequentes

Muitas das páginas neste site foram traduzidas do inglês original usando tradução automática. Embora na Qualtrics tenhamos feito nossa diligência prévia para obter as melhores traduções automáticas possíveis, a tradução automática nunca é perfeita. O texto original em inglês é considerado a versão oficial, e quaisquer discrepâncias entre o inglês original e as traduções automáticas não são juridicamente vinculativas.