Restplots interpretieren, um Ihre Regression zu verbessern

Suite
Customer Experience Employee Experience Strategy & Research
Produkt
Qualtrics

Was finden Sie hier?

Wenn Sie eine Regression ausführen, berechnet und zeichnet Stats iQ automatisch Residuen, damit Sie Ihr Regressionsmodell besser verstehen und verbessern können. Lesen Sie unten alles, was Sie über die Interpretation von Residuen (einschließlich Definitionen und Beispiele) wissen müssen.

Beobachtungen, Prognosen und Residuen

Um die Interpretation von Residuen zu demonstrieren, verwenden wir einen Limonadenstandsdatensatz, bei dem jede Zeile einen Tag mit „Temperatur“ und „Umsatz“ war.

Temperatur (Celsius) Umsatz
28,2 44 USD
21,4 23 EUR
32,9 43 USD
24,0 30 EUR
usw. usw.

Die Regressionsgleichung, die die Beziehung zwischen „Temperatur und “Umsatz” beschreibt, ist:

Umsatz = 2,7 * Temperatur – 35Nehmen wir

an, ein Tag am Limonadestand waren es 30,7 Grad und “Umsatz” betrug 50 $. 50 ist Ihre beobachtete oder tatsächliche Ausgabe, also der Wert, der tatsächlich aufgetreten ist.

Wenn wir also 30,7 bei unserem Wert für „Temperatur“ einfügen …

Umsatz = 2,7 * 30,7 – 35
Umsatz = 48

… erhalten wir 48 USD. Dies ist der prognostizierte Wert für diesen Tag, auch bekannt als der Wert für „Umsatz“, den die Regressionsgleichung basierend auf der „Temperatur“ prognostiziert hätte.

Ihr Modell ist natürlich nicht immer perfekt richtig. In diesem Fall ist die Vorhersage um 2 abzüglich; diese Differenz, die 2, wird als Restwert bezeichnet. Der Restwert ist der Teil, das übrig bleibt, wenn Sie den prognostizierten Wert vom Beobachtungswert subtrahieren.

Restwert = Beobachtet – Vorhergesagt

Sie können sich vorstellen, dass jede Datenzeile nun zusätzlich einen prognostizierten Wert und einen Restwert aufweist.

Temperatur
(Celsius)
Umsatz
(beobachtet)
Umsatz
(prognostiziert)
Restwert
(beobachtet – prognostiziert)
28,2 44 USD 41 USD 3 EUR
21,4 23 EUR 23 EUR 0 EUR
32,9 43 USD 54 USD – 11 USD
24,0 30 EUR 29 EUR 1 USD
usw. usw. usw. usw.

Wir werden die beobachteten, prognostizierten und Restwerte verwenden, um das Modell zu bewerten und zu verbessern.

Genauigkeit mit beobachtetem vs. Vorhergesagt

In einem einfachen Modell wie diesem, mit nur zwei Variablen, können Sie erkennen, wie genau das Modell ist, indem Sie „Temperatur“ mit „Umsatz“ verknüpfen. Hier ist der gleiche Regressionslauf auf zwei verschiedenen Limonadenständen, eine, bei der das Modell sehr genau ist, eine, bei der das Modell nicht:

Klar ist, dass für beide Limonadenstände eine höhere „Temperatur“ mit höherem „Umsatz“ verbunden ist. Aber bei einer gegebenen „Temperatur“ könnte man den „Umsatz“ der linken Limonade viel genauer prognostizieren als der rechte Limonadenstand, was bedeutet, dass das Modell viel genauer ist.

Die meisten Modelle haben jedoch mehr als eine erklärende Variable, und es ist nicht praktikabel, mehr Variablen in einem solchen Diagramm darzustellen. Lassen Sie uns also die prognostizierten Werte im Vergleich zu den beobachteten Werten für diese gleichen Datensets darstellen.

Auch hier ist das Modell für das Diagramm auf der linken Seite sehr genau. Es besteht eine starke Korrelation zwischen den Prognosen des Modells und seinen tatsächlichen Ergebnissen. Das Modell für das Diagramm ganz rechts ist das Gegenteil; die Vorhersagen des Modells sind überhaupt nicht sehr gut.

Beachten Sie, dass diese Diagramme genauso aussehen wie „Temperatur“ vs. „Umsatz“-Diagramme darüber, aber auf der X-Achse wird „Umsatz“ anstelle von „Temperatur“ prognostiziert. Das ist üblich, wenn Ihre Regressionsgleichung nur eine erklärende Variable hat. Häufiger haben Sie jedoch mehrere erklärende Variablen, und diese Diagramme sehen ganz anders aus als ein Diagramm einer beliebigen erklärenden Variablen im Vergleich zu. „Umsatz.“

Prognostizierte vs. Residual („The Residual Plot“)

Die sinnvollste Methode zum Zeichnen der Residuen ist jedoch die Darstellung mit Ihren Prognosewerten auf der X-Achse und Ihren Residuen auf der Y-Achse.

(Stats iQ stellt Residuen als standardisierte Residuen dar, d. h. jeder Restplot, den Sie mit einem beliebigen Modell betrachten, befindet sich auf derselben standardisierten y-Achse.)

Im Diagramm auf der rechten Seite entspricht jeder Punkt einem Tag, wobei sich die Prognose des Modells auf der X-Achse und die Genauigkeit der Prognose auf der Y-Achse befindet. Der Abstand von der Linie bei 0 gibt an, wie schlecht die Prognose für diesen Wert war.

Seit …

Restwert = beobachtet – prognostiziert

… positive Werte für den Rest (auf der y-Achse) bedeuten, dass die Prognose zu niedrig war und negative Werte bedeuten, dass die Prognose zu hoch war; 0 bedeutet, dass die Vermutung genau korrekt war.

Im Idealfall sieht das Restwertdiagramm so aus:

Das heißt,
(1) sie sind ziemlich symmetrisch verteilt und tendieren dazu, sich in der Mitte des Diagramms hin zu konzentrieren.
(2) sie sind um die unteren Einzelziffern der y-Achse geclustert (z. B. 0,5 oder 1,5, nicht 30 oder 150).
(3) im Allgemeinen gibt es keine klaren Muster.

Im Folgenden finden Sie einige Restwertdiagramme, die diese Anforderungen nicht erfüllen:

Diese Bereiche sind nicht gleichmäßig vertikal verteilt, haben einen Ausreißer oder haben eine klare Form für sie.

Wenn Sie ein klares Muster oder einen klaren Trend in Ihren Residuen erkennen, kann Ihr Modell verbessert werden.

In einer Sekunde werden wir aufschlüsseln, warum und was wir dagegen tun müssen.

Normales Q-Q-Restdiagramm:

Klicken Sie auf Normales Q-Q-Restdiagramm anzeigen, um ein Q-Q-Diagramm anzuzeigen, das Datenschiefe und Modellanpassung bewertet. Dieses Diagramm zeigt die standardisierten Residuen auf der Y-Achse und die theoretischen Quantile auf der X-Achse an.

 Daten, die eng an der gepunkteten Linie ausgerichtet sind, weisen auf eine Normalverteilung hin. Wenn die Punkte drastisch von der Linie abweichen, könnten Sie in Erwägung ziehen, Ihr Modell anzupassen, indem Sie andere Variablen im Regressionsmodell hinzufügen oder entfernen.

Wie wichtig ist es, wenn mein Modell nicht perfekt ist?

Wie besorgt sollten Sie sein, wenn Ihr Modell nicht perfekt ist, wenn Ihre Residuen ein bisschen ungesund aussehen? Das liegt an Ihnen.

Wenn Sie Ihre Arbeit in der Teilchenphysik veröffentlichen, möchten Sie wahrscheinlich sicherstellen, dass Ihr Modell so genau wie menschlich möglich ist. Wenn Sie versuchen, eine schnelle und schmutzige Analyse des Limonadenstands Ihres Neffen durchzuführen, könnte ein weniger perfektes Modell gut genug sein, um alle Fragen zu beantworten, die Sie haben (z. B. ob „Temperatur“ sich auf den Umsatz auswirkt).

Meistens ist ein anständiges Modell besser als gar keines. Nehmen Sie also Ihr Modell, versuchen Sie es zu verbessern, und entscheiden Sie dann, ob die Genauigkeit gut genug ist, um für Ihre Zwecke nützlich zu sein.

Beispiel Restplots und deren Diagnosen

Wenn Sie sich nicht sicher sind, was ein Rest ist, nehmen Sie sich fünf Minuten Zeit, um das oben Gesagte zu lesen, und kehren Sie dann hierher zurück.

Darunter befindet sich eine Galerie ungesunder Restplots. Ihr Rest kann wie ein bestimmter Typ von unten oder eine Kombination aussehen.

Wenn Sie so aussehen, wie eines der folgenden Elemente aussieht, klicken Sie darauf, um zu verstehen, was vor sich geht, und erfahren Sie, wie Sie das Problem beheben können.

(Wir verwenden den „Umsatz“ eines Limonadenstandes im Vergleich zur „Temperatur“ dieses Tages als Beispieldatenset.)

Y-Achse nicht ausgeglichen

Details zu diesem Diagramm und wie Sie es reparieren können.

Heteroskedastizität

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Nichtlinear

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Ausreißer

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Große Y-Achsen-Datenpunkte

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

X-Achse nicht ausgeglichen

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Details zu diesem Diagramm und wie Sie es reparieren können.

Verbessern Ihres Modells: Bewertung der Auswirkungen eines Ausreißers

Angenommen, Sie haben einen Datenpunkt außerhalb des Bereichs, der legitim ist, kein Mess- oder Datenfehler. Um zu entscheiden, wie Sie fortfahren möchten, sollten Sie die Auswirkungen des Datenpunkts auf die Regression bewerten.

Sie können dies am einfachsten tun, indem Sie die Koeffizienten Ihres aktuellen Modells notieren und dann diesen Datenpunkt aus der Regression herausfiltern. Wenn sich das Modell nicht viel ändert, dann muss man sich nicht viel Sorgen machen.

Wenn sich das Modell dadurch signifikant ändert, untersuchen Sie das Modell (insbesondere Ist vs. Prognose), und entscheiden Sie, welches Modell sich für Sie besser fühlt. Es ist in Ordnung, den Ausreißer letztendlich zu verwerfen, solange man theoretisch verteidigen kann: „In diesem Fall interessieren wir uns nicht für Ausreißer, sie sind einfach nicht von Interesse“ oder „Das war der Tag, an dem Uncle Jerry eingekauft und mir 100 Dollar gekippt hat. Das ist nicht vorhersehbar, und es lohnt sich nicht, in das Modell aufzunehmen.“

Verbessern Ihres Modells: Variablen transformieren

Übersicht

Die häufigste Methode zur Verbesserung eines Modells ist die Transformation einer oder mehrerer Variablen, in der Regel mithilfe einer „Protokoll“-Transformation.

Das Transformieren einer Variable ändert die Form ihrer Verteilung. In der Regel ist der beste Startort eine Variable mit einer asymmetrischen Verteilung im Gegensatz zu einer symmetrischen oder glockenförmigeren Verteilung. Suchen Sie eine Variable wie die folgende, um sie zu transformieren:

Im Allgemeinen funktionieren Regressionsmodelle besser mit symmetrischen, glockenförmigen Kurven. Probieren Sie verschiedene Arten von Transformationen aus, bis Sie auf diejenige stoßen, die dieser Form am nächsten kommt. Oft ist es nicht möglich, sich dem anzunähern, aber das ist das Ziel. Angenommen, Sie verwenden die Quadratwurzel von „Umsatz“ als Versuch, eine symmetrischere Form zu erreichen, und Ihre Verteilung sieht wie folgt aus:

Das ist gut, aber noch ein bisschen asymmetrisch. Lassen Sie uns versuchen, stattdessen das Erlösprotokoll zu verwenden, das folgende Form ergibt:

Das ist nett und symmetrisch. Sie werden wahrscheinlich ein besseres Regressionsmodell mit log(„Umsatz“) anstelle von „Umsatz“ erhalten. So können sich Ihre Gleichung, Ihre Residuen und Ihr R-Quadrat ändern:

Stats iQ zeigt eine kleine Version der Verteilung der Variablen inline mit der Regressionsgleichung an:

Wählen Sie die Drucktaste fx der Transformation links neben der Variable …

… dann eine Transformation auswählen, meistens log(x)...

… prüfen Sie dann das Histogramm, um herauszufinden, ob es zentrierter ist, da dieses nach der Transformation angezeigt wird:

Nachdem Sie eine Variable transformiert haben, beachten Sie, wie sich ihre Verteilung, das R-Quadrat der Regression und die Muster des Restplots ändern. Wenn sich diese verbessern (insbesondere das R-Quadrat und die Residuen), ist es wahrscheinlich am besten, die Transformation beizubehalten.

Wenn eine Transformation erforderlich ist, sollten Sie zunächst eine „Protokoll“-Transformation durchführen, da die Ergebnisse Ihres Modells noch leicht verständlich sein werden. Beachten Sie jedoch, dass Probleme auftreten, wenn die Daten, die Sie zu transformieren versuchen, Nullen oder negative Werte enthalten. Wenn Sie erfahren möchten, warum das Erstellen eines Protokolls so nützlich ist oder wenn Sie nicht positive Zahlen transformieren möchten oder nur ein besseres Verständnis darüber erhalten möchten, was bei der Transformation von Daten passiert, lesen Sie die Details unten.

Details

Wenn Sie die log10() einer Zahl nehmen, sagen Sie „10 zu welcher Kraft gibt mir diese Zahl“. Im Folgenden finden Sie beispielsweise eine einfache Tabelle mit vier Datenpunkten, die sowohl „Umsatz“ als auch log(„Umsatz“) enthält:

Temperatur Umsatz log(Umsatz)
20 100 2
30 1.000 3
40 10.000 4
45 31.623 4,5

Beachten Sie, dass wenn wir „Temperatur“ vs. „Umsatz“ und „Temperatur“ vs. log(„Umsatz“), das letztere Modell passt viel besser.

Das Interessante an dieser Transformation ist, dass Ihre Regression nicht mehr linear ist. Als „Temperatur“ von 20 auf 30 ging, ging „Umsatz“ von 10 auf 100, eine 90-Einheiten-Lücke. Als dann „Temperatur“ von 30 auf 40 ging, ging „Umsatz“ von 100 auf 1000, eine deutlich größere Lücke.

Wenn Sie ein Protokoll Ihrer Antwortvariablen erstellt haben, ist es nicht mehr der Fall, dass eine Erhöhung der „Temperatur“ um eine Einheit eine Erhöhung des „Umsatzes“ bedeutet. Jetzt ist es ein X-Prozent-Plus bei „Umsatz“. In diesem Fall ist ein zehnstufiger Anstieg der „Temperatur“ mit einem Anstieg von 1000 % an Y verbunden, d.h. ein Anstieg der „Temperatur“ um eine Einheit ist mit einem Anstieg des „Umsatzes“ um 26 % verbunden.

Beachten Sie auch, dass Sie das Protokoll von 0 oder einer negativen Zahl nicht verwenden können (es gibt kein X, wobei 10X = 0 oder 10X= -5 ist). Wenn Sie also eine Protokolltransformation durchführen, gehen diese Datenpunkte aus der Regression verloren. Es gibt vier häufige Möglichkeiten, mit der Situation umzugehen:

Verwenden Sie eine Quadratwurzel oder eine Würfelwurzel. Diese werden die Form der Kurve nicht so dramatisch verändern wie ein Protokoll, aber sie ermöglichen es, dass Nullen in der Regression verbleiben.
Wenn nicht zu viele Datenzeilen eine Null haben und diese Zeilen theoretisch nicht wichtig sind, können Sie mit dem Protokoll fortfahren und einige Zeilen aus Ihrer Regression verlieren.
Anstatt log(y) zu verwenden, verwenden Sie log(y+1), sodass Nullen zu eins werden und dann in der Regression beibehalten werden können. Dies verfälscht Ihr Modell ein bisschen und ist etwas verblüfft, aber in der Praxis sind seine negativen Nebenwirkungen in der Regel ziemlich gering.

Verbessern Ihres Modells: Fehlende Variablen

Der häufigste Grund dafür, dass ein Modell nicht passt, ist, dass nicht alle richtigen Variablen enthalten sind. Für dieses spezielle Problem gibt es viele mögliche Lösungen.

Neue Variable hinzufügen

Manchmal ist die Korrektur so einfach wie das Hinzufügen einer weiteren Variable zum Modell. Wenn beispielsweise der Verkehr bei Limonaden-„Umsatz“ an Wochenenden viel größer war als Wochentage, könnte Ihr vorhergesagter vs. tatsächlicher Plot wie folgt aussehen (R-Quadrat 0,053), da das Modell nur den Durchschnitt der Wochenendtage und Wochentage annimmt:

Wenn das Modell eine Variable namens „Wochenende“ enthält, könnte der prognostizierte vs. tatsächliche Plot wie folgt aussehen (R-Quadrat von 0,974):

Das Modell erstellt weitaus genauere Prognosen, da es berücksichtigen kann, ob ein Wochentag ein Wochentag ist oder nicht.

Beachten Sie, dass Sie manchmal Variablen in Stats iQ anlegen müssen, um Ihr Modell auf diese Weise zu verbessern. Beispiel: Sie haben eine Datumsvariable (mit Werten wie „26.10.2014“) und müssen unter Umständen eine neue Variable mit der Bezeichnung „Wochentag“ (d. h. Sonntag) oder „Wochenende“ (d. h. Wochenende) anlegen.

Nicht verfügbare ausgelassene Variable

Selten ist es aber so einfach. Häufig ist die relevante Variable nicht verfügbar, da Sie nicht wissen, was sie ist oder schwer zu sammeln war. Vielleicht war es kein Wochenend- vs. Wochentagsproblem, sondern so etwas wie „Anzahl der Mitbewerber in der Gegend“, das du damals nicht sammeln konntest.

Wenn die benötigte Variable nicht verfügbar ist oder Sie gar nicht wissen, was sie sein würde, kann Ihr Modell nicht wirklich verbessert werden, und Sie müssen es bewerten und entscheiden, wie zufrieden Sie damit sind (ob es nützlich ist oder nicht, obwohl es fehlerhaft ist).

Interaktionen zwischen Variablen

Vielleicht verkauft sich an Wochenenden der Limonadenstand immer mit 100 Prozent Kapazität, also unabhängig von der „Temperatur“ ist „Umsatz“ hoch. Doch an Wochentagen ist der Limonadenstand deutlich weniger beschäftigt, so dass „Temperatur“ ein wichtiger Treiber von „Umsatz“ ist. Wenn Sie eine Regression ausgeführt haben, die „Wochenende“ und „Temperatur“ enthielt, sehen Sie möglicherweise einen prognostizierten vs. tatsächlichen Graphen wie diesen, wobei die Zeile oben die Wochenendtage sind.

Wir würden sagen, dass es eine Interaktion zwischen „Wochenende“ und „Temperatur“ gibt; die Auswirkung einer von ihnen auf „Umsatz“ ist je nach Wert der anderen unterschiedlich. Wenn wir eine Interaktionsvariable anlegen, erhalten wir ein wesentlich besseres Modell, bei dem prognostiziert vs. tatsächlich wie folgt aussieht:

Verbessern Sie Ihr Modell: Unlinearität beheben

Angenommen, Sie haben eine Beziehung, die wie folgt aussieht:

Sie stellen unter Umständen fest, dass die Form einer Parabolie, die Sie möglicherweise zurückrufen, typischerweise mit Formeln verknüpft ist, die wie folgt aussehen:

y = x2 + x + 1

Standardmäßig verwendet die Regression ein lineares Modell, das wie folgt aussieht:

y = x + 1

Tatsächlich hat die Linie in der obigen Grafik folgende Formel:

y = 1,7x + 51

Aber es ist keine gute Anpassung. Wenn wir also x2 hinzufügen, hat unser Modell eine bessere Chance, die Kurve anzupassen. Tatsächlich legt sie Folgendes an:

Die Formel für diese Kurve lautet:

y = –2×2 +111x – 1408

Das bedeutet, dass sich unsere Diagnosediagramme von dieser …

… dazu:

Beachten Sie, dass es sich hierbei um gesunde Diagnosediagramme handelt, auch wenn die Daten auf der rechten Seite unausgewogen erscheinen.

Der obige Ansatz kann durch Hinzufügen von x3 auf andere Formen, insbesondere eine S-förmige Kurve, ausgedehnt werden. Das ist aber relativ selten.

Vorsicht:

  • Wenn Sie aufgrund eines nicht linearen Musters in Ihren Daten einen x2-Begriff haben, möchten Sie im Allgemeinen einen guten alten x-Begriff haben. Ihr Modell ist vielleicht vollkommen gut ohne es, aber Sie sollten auf jeden Fall versuchen, beides zu starten.
  • Die Regressionsgleichung kann schwer verständlich sein. Für die lineare Gleichung zu Beginn dieses Abschnitts ging für jede zusätzliche Einheit von „Temperatur“ „Umsatz“ um 1,7 Einheiten hoch. Wenn Sie sowohl x2 als auch x in der Gleichung haben, ist es nicht einfach zu sagen: „Wenn die Temperatur um einen Grad ansteigt, passiert das.“ Manchmal ist es aus diesem Grund einfacher, einfach eine lineare Gleichung zu verwenden, vorausgesetzt, dass die Gleichung gut genug passt.

FAQs

Wie erstelle ich eine neue Stats iQ-Variable?

Welche Optionen gibt es für die Analyse meiner Daten in Stats iQ?

Ich weiß nicht, was dieser statistische Begriff bedeutet. Können Sie es mir sagen?

Wie filtere ich die Daten, die in Stats iQ angezeigt werden?

Wie kann ich meine neuen Antworten in Stats iQ anzeigen?

Wie werden Analysekarten in meinem Stats iQ-Arbeitsbereich bestellt?

Was ist Stats iQ? / Wo ist Statwing?

Was mache ich, wenn meine Daten nicht ordnungsgemäß geladen werden?

Viele Seiten dieses Portals wurden mithilfe maschineller Übersetzung aus dem Englischen übersetzt. Obwohl wir bei Qualtrics die bestmögliche maschinelle Übersetzung ausgewählt haben, um ein möglichst gutes Ergebnis zu bieten, ist maschinelle Übersetzung nie perfekt. Der englische Originaltext gilt als offizielle Version. Abweichungen zwischen dem englischen Originaltext und den maschinellen Übersetzungen sind nicht rechtlich bindend.

Hat Ihnen das weitergeholfen?

Das von Ihnen eingereichte Feedback, dient lediglich dazu, diese Seite zu verbessern.

Großartig! Vielen Dank für die Rückmeldung!

Vielen Dank für die Rückmeldung!