Interpretazione dei tracciati residui per migliorare la regressione

Suite

Customer Experience Employee Experience Strategy & Research

Prodotto

Qualtrics

Cosa puoi trovare in questa pagina

Quando esegui una regressione, Stats iQ calcola e traccia automaticamente i residui per aiutarti a comprendere e migliorare il tuo modello di regressione. Leggi qui di seguito per scoprire tutto ciò che devi sapere sull’interpretazione dei residui (comprese le definizioni e gli esempi).

Osservazioni, previsioni e residui

Per dimostrare come interpretare i residui, utilizzeremo un set di dati di uno stand di limonata, in cui ogni riga era un giorno di “Temperatura” e “Ricavo”.

Temperatura (Celsius)	Ricavo
28,2	44 $
21,4	23 $
32,9	43 $
24	30 $
ecc.	ecc.

L’equazione di regressione che descrive la relazione tra “Temperatura” e “Ricavo” è:

Ricavo = 2,7 * Temperatura – 35

Diciamo che un giorno allo stand di limonata era di 30,7 gradi e il “Ricavo” era di 50 $. 50 è il tuo risultato osservato o effettivo , il valore che si è effettivamente verificato.

Quindi se inseriamo 30,7 al nostro valore per “Temperatura”…

Ricavo= 2,7 * 30,7 – 35
Ricavo = 48

…otteniamo 48 $. Questo è il valore previsto per quel giorno, noto anche come il valore per il “Ricavo” che l’equazione di regressione avrebbe previsto in base alla “Temperatura”.

Ovviamente, il tuo modello non è sempre perfettamente giusto. In questo caso, la previsione presenta uno scarto di 2; quella differenza, 2, è chiamata residuo. Il residuo è la parte rimasta quando si sottrae il valore previsto dal valore osservato.

Residuo = Osservato – Previsto

È possibile immaginare che ogni riga di dati abbia ora, in aggiunta, un valore previsto e uno residuo.

Temperatura (Celsius)	Ricavo (Osservato)	Ricavo (Previsto)	Residuo (Osservato – Previsto)
28,2	44 $	41 $	3 $
21,4	23 $	23 $	0 $
32,9	43 $	54 $	– 11 $
24,0	30 $	29 $	1 $
ecc.	ecc.	ecc.	ecc.

Utilizzeremo i valori osservati, previsti e residui per valutare e migliorare il modello.

Comprendere l’accuratezza di osservato rispetto a previsto

In un modello semplice come questo, con due sole variabili, è possibile avere un’idea di quanto il modello sia accurato semplicemente correlando “Temperatura” a “Ricavo”. Qui di seguito viene eseguita la stessa regressione su due diversi stand di limonata, uno in cui il modello è molto accurato e uno in cui non lo è:

Grafico delle previsioni del modello accurate e non accurate

È chiaro che per entrambi gli stand di limonata, una “Temperatura” più alta è associata ad un “Ricavo” più alto. Ma a una data “Temperatura”, sarebbe possibile prevedere il “Ricavo” dello stand di limonata di sinistra in modo molto più accurato rispetto allo stand della limonata di destra, il che significa che il modello è molto più accurato.

Tuttavia, la maggior parte dei modelli ha più di una variabile esplicativa, e non è pratico rappresentare più variabili in un grafico del genere. Pertanto, tracciamo i valori previsti rispetto ai valori osservati per questi stessi set di dati.

Grafici dei valori previsti rispetto a quelli effettivi per modelli accurati e inaccurati

Anche in questo caso, il modello per il grafico a sinistra è molto accurato; esiste una forte correlazione tra le previsioni del modello e i suoi risultati effettivi. Il modello del grafico all’estrema destra è il contrario; le previsioni del modello sono tutt’altro che ottime.

Nota: questi grafici sembrano proprio come la “Temperatura” rispetto al “Ricavo” che si trovano sopra, ma l’asse delle x è previsto “Ricavo” invece di “Temperatura“. Questo è comune quando l’equazione di regressione ha una sola variabile esplicativa. Tuttavia, più spesso, si avranno più variabili esplicative, e questi grafici avranno un aspetto piuttosto diverso da un tracciato di una qualsiasi variabile esplicativa rispetto a “Ricavo”.

Esaminare previsto rispetto a residuo (“Il tracciato residuo”)

Il modo più utile per tracciare i residui, tuttavia, è con i valori previsti sull’asse delle x e i residui sull’asse delle y.

(Stats iQ presenta i residui come residui standardizzati, il che significa che ogni tracciato residuo che si guarda con un qualsiasi modello è sullo stesso asse delle y standardizzato.)

Grafico dei valori previsti rispetto a quelli effettivi e grafico dei residui standardizzati

Nel tracciato a destra, ogni punto è un giorno, in cui la previsione effettuata dal modello è sull’asse delle x e l’accuratezza della previsione è sull’asse delle y. La distanza dalla linea a 0 indica quanto la previsione era negativa per quel valore.

Poiché…

Residuo = Osservato – Previsto

…valori positivi per il residuo (sull’asse y) indicano che la previsione era troppo bassa, e i valori negativi indicano che la previsione era troppo alta; 0 indica che la stima era esattamente corretta.

Idealmente, il tracciato dei residui ha il seguente aspetto:

Esempi di tracciati residui standardizzati ideali

Cioè,
(1) sono distribuiti in maniera perfettamente simmetrica, tendendo a concentrarsi intorno alla metà del tracciato.
(2) sono raggruppati intorno alle singole cifre inferiori dell’asse y (ad esempio, 0,5 o 1,5, non 30 o 150)
(3) in generale, non ci sono modelli chiari.

Ecco alcuni tracciati residui che non soddisfano tali requisiti:

Esempi di tracciati residui standardizzati indesiderati

Questi tracciati non sono distribuiti in modo uniforme verticalmente, hanno un valore fuori dalla norma o hanno una forma chiara.

Se è possibile rilevare un modello chiaro o una tendenza nei residui, il modello ha margini di miglioramento.

Tra un secondo andremo ad analizzare il perché e cosa fare al riguardo.

Tracciato residuo Q-Q normale:

Fai clic su Mostra diagramma residuo Q-Q normale per visualizzare un diagramma Q-Q che valuta la distorsione dei dati e l’adattamento del modello. Questo grafico mostra i residui standardizzati sull’asse delle y e i quantili teorici sull’asse delle x.

Mostra una distribuzione QQ per l’adattamento del modello disponibile nelle regressioni lineari di Stats iQ.

I dati che si allineano strettamente alla linea tratteggiata indicano una distribuzione normale. Se i punti si scostano drasticamente dalla linea, è possibile prendere in considerazione la possibilità di adattare il modello aggiungendo o rimuovendo altre variabili nel modello di regressione.

Quanto è importante che il mio modello non è perfetto?

Quanto dovresti essere preoccupato se il tuo modello non è perfetto, se i residui sembrano un po’ non adeguati? Dipende da te.

Se stai pubblicando la tua tesi in fisica delle particelle, probabilmente vuoi assicurarti che il tuo modello sia il più possibile accurato dal punto di vista umano. Se stai cercando di eseguire un’analisi rapida e grezza dello stand di limonata di tuo nipote, un modello meno che perfetto potrebbe essere abbastanza adeguato da rispondere a qualsiasi tua domanda (ad esempio, se “Temperatura” sembra influire su “Ricavo”).

Il più delle volte un modello decente è meglio di nessun modello affatto. Prendi quindi il tuo modello, cerca di migliorarlo e quindi decidi se l’accuratezza è abbastanza adeguata da essere utile per i tuoi scopi.

Esempio di tracciati residui e relative diagnosi

Se non sei sicuro di cosa sia un residuo, prenditi cinque minuti per leggere quanto sopra, quindi torna qui.

Qui di seguito una galleria di tracciati residui non adeguati. Il residuo potrebbe essere di un tipo specifico riportato di seguito o una combinazione.

Se il tuo sembra uno dei seguenti, clicca su quel residuo per capire cosa sta succedendo e imparare a risolverlo.

(In tutto il processo utilizzeremo il “Ricavo” dello stand di limonata rispetto alla “Temperatura” di quel giorno come set di dati esemplificativo).

Asse delle y sbilanciato

Mostra dettagli su questo tracciato e su come risolverlo.

Problema

Immagina che per qualsiasi motivo, il tuo stand di limonata abbia solitamente un ricavo basso, ma ogni tanto si hanno giorni con guadagni molto alti, tali che “Ricavo” appariva come…

Istogramma distorto di ricavo per lesempio di stand di limonata

…invece di qualcosa di più simmetrico e a campana come questo:

Istogramma simmetrico di ricavo per lesempio di stand di limonata

Quindi “Temperatura” rispetto a “Ricavo” potrebbe apparire così, con la maggior parte dei dati raggruppati nella parte inferiore…

Temperatura rispetto a Ricavo per i dati sulla limonata distorti

La linea nera rappresenta l’equazione del modello, la previsione del modello della relazione tra “Temperatura” e “Ricavo”. Guarda sopra ogni previsione fatta dalla linea nera per una data “Temperatura” (ad esempio, a “Temperatura” 30, si prevede che “Ricavo” sia circa 20). Si vede che la maggior parte dei punti si trovano sotto la linea (ovvero, la previsione era troppo alta), ma alcuni punti si trovano molto al di sopra della linea (ovvero, la previsione era decisamente troppo bassa).

Traducendo gli stessi dati nei tracciati diagnostici, la maggior parte delle previsioni dell’equazione sono un po’ troppo alte, e quindi alcune sarebbero decisamente troppo basse.

Tracciati previsti rispetto a quelle reali e residui per lesempio della limonata

Implicazioni

Questo significa quasi sempre che il modello può essere reso significativamente più accurato. Nella maggior parte dei casi, si noterà che il modello era direzionalmente corretto ma abbastanza inaccurato rispetto a una versione migliorata. Non è raro risolvere un problema del genere e di conseguenza vedere il salto a R-quadrato del modello da 0,2 a 0,5 (su una scala da 0 a 1).

Come risolvere il problema

La soluzione a questo problema è quasi sempre quella di trasformare i tuoi dati, in genere la tua variabile di risposta .
È anche possibile che nel modello manchi una variabile.