Restplots interpretieren, um Ihre Regression zu verbessern

Suite

Customer Experience Employee Experience Strategy & Research

Produkt

Qualtrics

Was finden Sie hier?

Wenn Sie eine Regression ausführen, berechnet und zeichnet Stats iQ automatisch Residuen, damit Sie Ihr Regressionsmodell besser verstehen und verbessern können. Lesen Sie unten alles, was Sie über die Interpretation von Residuen (einschließlich Definitionen und Beispiele) wissen müssen.

Beobachtungen, Prognosen und Residuen

Um die Interpretation von Residuen zu demonstrieren, verwenden wir einen Limonadenstandsdatensatz, bei dem jede Zeile einen Tag mit „Temperatur“ und „Umsatz“ war.

Temperatur (Celsius)	Umsatz
28,2	44 USD
21,4	23 EUR
32,9	43 USD
24,0	30 EUR
usw.	usw.

Die Regressionsgleichung, die die Beziehung zwischen „Temperatur und “Umsatz” beschreibt, ist:

Umsatz = 2,7 * Temperatur – 35Nehmen wir

an, ein Tag am Limonadestand waren es 30,7 Grad und “Umsatz” betrug 50 $. 50 ist Ihre beobachtete oder tatsächliche Ausgabe, also der Wert, der tatsächlich aufgetreten ist.

Wenn wir also 30,7 bei unserem Wert für „Temperatur“ einfügen …

Umsatz = 2,7 * 30,7 – 35
Umsatz = 48

… erhalten wir 48 USD. Dies ist der prognostizierte Wert für diesen Tag, auch bekannt als der Wert für „Umsatz“, den die Regressionsgleichung basierend auf der „Temperatur“ prognostiziert hätte.

Ihr Modell ist natürlich nicht immer perfekt richtig. In diesem Fall ist die Vorhersage um 2 abzüglich; diese Differenz, die 2, wird als Restwert bezeichnet. Der Restwert ist der Teil, das übrig bleibt, wenn Sie den prognostizierten Wert vom Beobachtungswert subtrahieren.

Restwert = Beobachtet – Vorhergesagt

Sie können sich vorstellen, dass jede Datenzeile nun zusätzlich einen prognostizierten Wert und einen Restwert aufweist.

Temperatur (Celsius)	Umsatz (beobachtet)	Umsatz (prognostiziert)	Restwert (beobachtet – prognostiziert)
28,2	44 USD	41 USD	3 EUR
21,4	23 EUR	23 EUR	0 EUR
32,9	43 USD	54 USD	– 11 USD
24,0	30 EUR	29 EUR	1 USD
usw.	usw.	usw.	usw.

Wir werden die beobachteten, prognostizierten und Restwerte verwenden, um das Modell zu bewerten und zu verbessern.

Genauigkeit mit beobachtetem vs. Vorhergesagt

In einem einfachen Modell wie diesem, mit nur zwei Variablen, können Sie erkennen, wie genau das Modell ist, indem Sie „Temperatur“ mit „Umsatz“ verknüpfen. Hier ist der gleiche Regressionslauf auf zwei verschiedenen Limonadenständen, eine, bei der das Modell sehr genau ist, eine, bei der das Modell nicht:

Diagramm mit genauen oder ungenauen Modellprognosen

Klar ist, dass für beide Limonadenstände eine höhere „Temperatur“ mit höherem „Umsatz“ verbunden ist. Aber bei einer gegebenen „Temperatur“ könnte man den „Umsatz“ der linken Limonade viel genauer prognostizieren als der rechte Limonadenstand, was bedeutet, dass das Modell viel genauer ist.

Die meisten Modelle haben jedoch mehr als eine erklärende Variable, und es ist nicht praktikabel, mehr Variablen in einem solchen Diagramm darzustellen. Lassen Sie uns also die prognostizierten Werte im Vergleich zu den beobachteten Werten für diese gleichen Datensets darstellen.

Diagramme von prognostizierten Werten im Vergleich zu Istwerten für präzise und ungenaue Modelle

Auch hier ist das Modell für das Diagramm auf der linken Seite sehr genau. Es besteht eine starke Korrelation zwischen den Prognosen des Modells und seinen tatsächlichen Ergebnissen. Das Modell für das Diagramm ganz rechts ist das Gegenteil; die Vorhersagen des Modells sind überhaupt nicht sehr gut.

Beachten Sie, dass diese Diagramme genauso aussehen wie „Temperatur“ vs. „Umsatz“-Diagramme darüber, aber auf der X-Achse wird „Umsatz“ anstelle von „Temperatur“ prognostiziert. Das ist üblich, wenn Ihre Regressionsgleichung nur eine erklärende Variable hat. Häufiger haben Sie jedoch mehrere erklärende Variablen, und diese Diagramme sehen ganz anders aus als ein Diagramm einer beliebigen erklärenden Variablen im Vergleich zu. „Umsatz.“

Prognostizierte vs. Residual („The Residual Plot“)

Die sinnvollste Methode zum Zeichnen der Residuen ist jedoch die Darstellung mit Ihren Prognosewerten auf der X-Achse und Ihren Residuen auf der Y-Achse.

(Stats iQ stellt Residuen als standardisierte Residuen dar, d. h. jeder Restplot, den Sie mit einem beliebigen Modell betrachten, befindet sich auf derselben standardisierten y-Achse.)

Diagramm der prognostizierten versus tatsächlichen Werte und Diagramm der standardisierten Residuen

Im Diagramm auf der rechten Seite entspricht jeder Punkt einem Tag, wobei sich die Prognose des Modells auf der X-Achse und die Genauigkeit der Prognose auf der Y-Achse befindet. Der Abstand von der Linie bei 0 gibt an, wie schlecht die Prognose für diesen Wert war.

Seit …

Restwert = beobachtet – prognostiziert

… positive Werte für den Rest (auf der y-Achse) bedeuten, dass die Prognose zu niedrig war und negative Werte bedeuten, dass die Prognose zu hoch war; 0 bedeutet, dass die Vermutung genau korrekt war.

Im Idealfall sieht das Restwertdiagramm so aus:

Beispiele für ideale standardisierte Restwertediagramme

Das heißt,
(1) sie sind ziemlich symmetrisch verteilt und tendieren dazu, sich in der Mitte des Diagramms hin zu konzentrieren.
(2) sie sind um die unteren Einzelziffern der y-Achse geclustert (z. B. 0,5 oder 1,5, nicht 30 oder 150).
(3) im Allgemeinen gibt es keine klaren Muster.

Im Folgenden finden Sie einige Restwertdiagramme, die diese Anforderungen nicht erfüllen:

Beispiele für unerwünschte standardisierte Restplots

Diese Bereiche sind nicht gleichmäßig vertikal verteilt, haben einen Ausreißer oder haben eine klare Form für sie.

Wenn Sie ein klares Muster oder einen klaren Trend in Ihren Residuen erkennen, kann Ihr Modell verbessert werden.

In einer Sekunde werden wir aufschlüsseln, warum und was wir dagegen tun müssen.

Normales Q-Q-Restdiagramm:

Klicken Sie auf Normales Q-Q-Restdiagramm anzeigen, um ein Q-Q-Diagramm anzuzeigen, das Datenschiefe und Modellanpassung bewertet. Dieses Diagramm zeigt die standardisierten Residuen auf der Y-Achse und die theoretischen Quantile auf der X-Achse an.

Zeigt eine QQ-Verteilung für die Modellanpassung an, die in linearen Regressionen von stats iQ verfügbar ist.

Daten, die eng an der gepunkteten Linie ausgerichtet sind, weisen auf eine Normalverteilung hin. Wenn die Punkte drastisch von der Linie abweichen, könnten Sie in Erwägung ziehen, Ihr Modell anzupassen, indem Sie andere Variablen im Regressionsmodell hinzufügen oder entfernen.

Wie wichtig ist es, wenn mein Modell nicht perfekt ist?

Wie besorgt sollten Sie sein, wenn Ihr Modell nicht perfekt ist, wenn Ihre Residuen ein bisschen ungesund aussehen? Das liegt an Ihnen.

Wenn Sie Ihre Arbeit in der Teilchenphysik veröffentlichen, möchten Sie wahrscheinlich sicherstellen, dass Ihr Modell so genau wie menschlich möglich ist. Wenn Sie versuchen, eine schnelle und schmutzige Analyse des Limonadenstands Ihres Neffen durchzuführen, könnte ein weniger perfektes Modell gut genug sein, um alle Fragen zu beantworten, die Sie haben (z. B. ob „Temperatur“ sich auf den Umsatz auswirkt).

Meistens ist ein anständiges Modell besser als gar keines. Nehmen Sie also Ihr Modell, versuchen Sie es zu verbessern, und entscheiden Sie dann, ob die Genauigkeit gut genug ist, um für Ihre Zwecke nützlich zu sein.

Beispiel Restplots und deren Diagnosen

Wenn Sie sich nicht sicher sind, was ein Rest ist, nehmen Sie sich fünf Minuten Zeit, um das oben Gesagte zu lesen, und kehren Sie dann hierher zurück.

Darunter befindet sich eine Galerie ungesunder Restplots. Ihr Rest kann wie ein bestimmter Typ von unten oder eine Kombination aussehen.

Wenn Sie so aussehen, wie eines der folgenden Elemente aussieht, klicken Sie darauf, um zu verstehen, was vor sich geht, und erfahren Sie, wie Sie das Problem beheben können.

(Wir verwenden den „Umsatz“ eines Limonadenstandes im Vergleich zur „Temperatur“ dieses Tages als Beispieldatenset.)

Y-Achse nicht ausgeglichen

Restdiagramm mit nicht ausgeglichener Y-Achse

Details zu diesem Diagramm und wie Sie es reparieren können.

Problem

Stellen Sie sich vor, aus welchen Gründen auch immer, Ihr Limonade-Stand hat in der Regel einen niedrigen Umsatz, aber immer wieder bekommst du sehr hohe Umsatztage, so dass „Umsatz“ so aussah …

Verzerrtes Histogramm des Umsatzes aus dem Limonadenstand-Beispiel

… statt etwas symmetrischeres und glockenförmiges wie das folgende:

Symmetrisches Histogramm des Umsatzes aus dem Limonadenstand-Beispiel

Also „Temperatur“ vs. „Umsatz“ könnte wie folgt aussehen, wobei die meisten Daten unten gebündelt sind …

Temperatur vs. Umsatz für Verzerrte Umsatzdaten von Limonade

Die schwarze Linie stellt die Modellgleichung dar, die Vorhersage der Beziehung zwischen „Temperatur“ und „Umsatz“. Sehen Sie sich oben jede Prognose an, die von der schwarzen Linie für eine bestimmte „Temperatur“ erstellt wurde (z. B. wird bei „Temperatur“ 30 der Umsatz auf etwa 20 prognostiziert). Sie sehen, dass der Großteil der Punkte unterhalb der Linie liegt (d. h. die Vorhersage war zu hoch), aber einige Punkte befinden sich sehr weit über der Linie (d. h. die Vorhersage war viel zu niedrig).

Wenn Sie dieselben Daten in die Diagnosediagramme übersetzen, sind die meisten Prognosen der Gleichung etwas zu hoch und einige wären dann viel zu niedrig.

Beispiel: Prognostizierte im Vergleich zu Ist- und Restplots für Limonade

Auswirkungen

Dies bedeutet fast immer, dass Ihr Modell deutlich genauer werden kann. Meistens stellen Sie fest, dass das Modell im Vergleich zu einer verbesserten Version direkt korrekt, aber ziemlich ungenau war. Es ist nicht ungewöhnlich, ein solches Problem zu beheben und somit den r-quadrierten Sprung des Modells von 0,2 auf 0,5 (auf einer Skala von 0 bis 1) zu sehen.

So beheben Sie das Problem

Die Lösung hierfür besteht fast immer darin, Ihre Daten zu transformieren, in der Regel Ihre Response-Variable.
Es ist auch möglich, dass in Ihrem Modell eine Variable fehlt.