zum Hauptinhalt springen
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Restplots interpretieren, um Ihre Regression zu verbessern


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Wenn Sie eine Regression ausführen, berechnet und zeichnet Stats iQ automatisch Residuen, damit Sie Ihr Regressionsmodell besser verstehen und verbessern können. Lesen Sie unten alles, was Sie über die Interpretation von Residuen (einschließlich Definitionen und Beispiele) wissen müssen.

Beobachtungen, Prognosen und Residuen

Um die Interpretation von Residuen zu demonstrieren, verwenden wir einen Limonadenstandsdatensatz, bei dem jede Zeile einen Tag mit „Temperatur“ und „Umsatz“ war.

Temperatur (Celsius) Umsatz
28,2 44 USD
21,4 23 EUR
32,9 43 USD
24,0 30 EUR
usw. usw.

 

Die Regressionsgleichung, die die Beziehung zwischen „Temperatur“ und „Umsatz“ beschreibt, ist:

Umsatz = 2,7 * Temperatur – 35

Angenommen, eines Tages auf dem Limonadenstand waren es 30,7 Grad und „Umsatz“ 50 USD. 50 ist Ihre beobachtete oder tatsächliche Ausgabe, also der Wert, der tatsächlich aufgetreten ist.

Wenn wir also 30,7 zu unserem Wert für „Temperatur“ einfügen …

Umsatz = 2,7 * 30,7 – 35
Erlös = 48

… wir erhalten 48 USD. Dies ist der prognostizierte Wert für diesen Tag, auch bekannt als der Wert für „Umsatz“, den die Regressionsgleichung basierend auf der „Temperatur“ prognostiziert hätte.

Ihr Modell ist natürlich nicht immer perfekt richtig. In diesem Fall ist die Vorhersage um 2 abzüglich; diese Differenz, die 2, wird als Restwert bezeichnet. Residualwert ist das Bit, das übrig bleibt, wenn Sie den prognostizierten Wert vom Beobachtungswert subtrahieren.

Netto = Beobachtet – prognostiziert

Sie können sich vorstellen, dass nun jede Datenzeile zusätzlich einen prognostizierten Wert und einen Restwert hat.

Temperatur
(Celsius)
Umsatz
(Beobachtet)
Umsatz
(Prognostiziert)
Netto
(Beobachtet – prognostiziert)
28,2 44 USD 41 USD 3 EUR
21,4 23 EUR 23 EUR 0 EUR
32,9 43 USD 54 USD – 11 USD
24,0 30 EUR 29 EUR 1 USD
usw. usw. usw. usw.

 

Wir werden die beobachteten, prognostizierten und Restwerte verwenden, um das Modell zu bewerten und zu verbessern.

Genauigkeit mit beobachtetem vs. Vorhergesagt

In einem einfachen Modell wie diesem, mit nur zwei Variablen, können Sie erkennen, wie genau das Modell ist, indem Sie „Temperatur“ mit „Umsatz“ verknüpfen. Hier ist der gleiche Regressionslauf auf zwei verschiedenen Limonadenständen, eine, bei der das Modell sehr genau ist, eine, bei der das Modell nicht:
Diagramm mit genauen oder ungenauen Modellprognosen

Klar ist, dass für beide Limonadenstände eine höhere „Temperatur“ mit höherem „Umsatz“ verbunden ist. Aber bei einer gegebenen „Temperatur“ könnte man den „Umsatz“ der linken Limonade viel genauer prognostizieren als der rechte Limonadenstand, was bedeutet, dass das Modell viel genauer ist.

Die meisten Modelle haben jedoch mehr als eine erklärende Variable, und es ist nicht praktikabel, mehr Variablen in einem solchen Diagramm darzustellen. Lassen Sie uns also die prognostizierten Werte im Vergleich zu den beobachteten Werten für diese gleichen Datensets darstellen.
Diagramme von prognostizierten Werten im Vergleich zu Istwerten für präzise und ungenaue Modelle

Auch hier ist das Modell für das Diagramm auf der linken Seite sehr genau. Es besteht eine starke Korrelation zwischen den Prognosen des Modells und seinen tatsächlichen Ergebnissen. Das Modell für das Diagramm ganz rechts ist das Gegenteil; die Vorhersagen des Modells sind überhaupt nicht sehr gut.

Beachten Sie, dass diese Diagramme genauso aussehen wie „Temperatur“ vs. „Umsatz“-Diagramme darüber, aber auf der X-Achse wird „Umsatz“ anstelle von „Temperatur“ prognostiziert. Das ist üblich, wenn Ihre Regressionsgleichung nur eine erklärende Variable hat. Häufiger haben Sie jedoch mehrere erklärende Variablen, und diese Diagramme sehen ganz anders aus als ein Diagramm einer beliebigen erklärenden Variablen im Vergleich zu. „Umsatz.“

Prognostizierte vs. Residual („The Residual Plot“)

Die sinnvollste Methode zum Zeichnen der Residuen ist jedoch die Darstellung mit Ihren Prognosewerten auf der X-Achse und Ihren Residuen auf der Y-Achse.

(Stats iQ stellt Residuen als standardisierte Residuen dar, d. h. jeder Restplot, den Sie mit einem beliebigen Modell betrachten, befindet sich auf derselben standardisierten y-Achse.)
Diagramm der prognostizierten versus tatsächlichen Werte und Diagramm der standardisierten Residuen

Im Diagramm auf der rechten Seite entspricht jeder Punkt einem Tag, wobei sich die Prognose des Modells auf der X-Achse und die Genauigkeit der Prognose auf der Y-Achse befindet. Der Abstand von der Linie bei 0 gibt an, wie schlecht die Prognose für diesen Wert war.

Seit …

Netto = Beobachtet – prognostiziert

… positive Werte für die Residualwerte (auf der Y-Achse) bedeuten, dass die Prognose zu niedrig war, und negative Werte bedeuten, dass die Prognose zu hoch war; 0 bedeutet, dass die Annahme genau korrekt war.

Idealerweise sieht Ihr Plot der Residuen wie folgt aus:
Beispiele für ideale standardisierte Restplots

Das heißt:
(1) Sie sind ziemlich symmetrisch verteilt und tendieren dazu, in Richtung Mitte des Parks zu stopfen.
(2) Sie sind um die unteren Einzelziffern der Y-Achse geclustert (z. B. 0,5 oder 1,5, nicht 30 oder 150).
(3) Im Allgemeinen gibt es keine eindeutigen Muster.

Im Folgenden finden Sie einige Restdiagramme, die diese Anforderungen nicht erfüllen:
Beispiele für unerwünschte standardisierte Restplots

Diese Bereiche sind nicht gleichmäßig vertikal verteilt, haben einen Ausreißer oder haben eine klare Form für sie.

Wenn Sie ein klares Muster oder einen klaren Trend in Ihren Residuen erkennen, kann Ihr Modell verbessert werden.

In einer Sekunde werden wir aufschlüsseln, warum und was wir dagegen tun müssen.

Normales Q-Q-Restdiagramm:

Klicken Sie auf Normales Q-Q-Residualplot anzeigen, um ein Q-Q-Diagramm anzuzeigen, das Datenschiefstände und Modellanpassung bewertet. Dieses Diagramm zeigt die standardisierten Residuen auf der Y-Achse und die theoretischen Quantile auf der X-Achse an.

Zeigt eine QQ-Verteilung für die Modellanpassung an, die in linearen Regressionen von stats iQ verfügbar ist.  Daten, die eng an der gepunkteten Linie ausgerichtet sind, weisen auf eine Normalverteilung hin. Wenn die Punkte drastisch von der Linie abweichen, könnten Sie in Erwägung ziehen, Ihr Modell anzupassen, indem Sie andere Variablen im Regressionsmodell hinzufügen oder entfernen.

Wie wichtig ist es, wenn mein Modell nicht perfekt ist?

Wie besorgt sollten Sie sein, wenn Ihr Modell nicht perfekt ist, wenn Ihre Residuen ein bisschen ungesund aussehen? Das liegt an Ihnen.

Wenn Sie Ihre Arbeit in der Teilchenphysik veröffentlichen, möchten Sie wahrscheinlich sicherstellen, dass Ihr Modell so genau wie menschlich möglich ist. Wenn Sie versuchen, eine schnelle und schmutzige Analyse des Limonadenstands Ihres Neffen durchzuführen, könnte ein weniger perfektes Modell gut genug sein, um alle Fragen zu beantworten, die Sie haben (z. B. ob „Temperatur“ sich auf den Umsatz auswirkt).

Meistens ist ein anständiges Modell besser als gar keines. Nehmen Sie also Ihr Modell, versuchen Sie es zu verbessern, und entscheiden Sie dann, ob die Genauigkeit gut genug ist, um für Ihre Zwecke nützlich zu sein.

Beispiel Restplots und deren Diagnosen

Wenn Sie sich nicht sicher sind, was ein Rest ist, nehmen Sie sich fünf Minuten Zeit, um das oben Gesagte zu lesen, und kehren Sie dann hierher zurück.

Darunter befindet sich eine Galerie ungesunder Restplots. Ihr Rest kann wie ein bestimmter Typ von unten oder eine Kombination aussehen.

Wenn Sie so aussehen, wie eines der folgenden Elemente aussieht, klicken Sie darauf, um zu verstehen, was vor sich geht, und erfahren Sie, wie Sie das Problem beheben können.

(Wir verwenden den „Umsatz“ eines Limonadenstandes im Vergleich zur „Temperatur“ dieses Tages als Beispieldatenset.)

Y-Achse nicht ausgeglichen

Restdiagramm mit nicht ausgeglichener Y-Achse

Zeigen Sie Details zu diesem Diagramm an und wie Sie es beheben können.

Problem

Stellen Sie sich vor, aus welchen Gründen auch immer, Ihr Limonade-Stand hat in der Regel einen niedrigen Umsatz, aber immer wieder bekommst du sehr hohe Umsatztage, so dass „Umsatz“ so aussah …

Verzerrtes Histogramm des Umsatzes aus dem Limonadenstand-Beispiel

… statt etwas symmetrischeres und glockenförmiges wie das folgende:

Symmetrisches Histogramm des Umsatzes aus dem Limonadenstand-Beispiel

Also „Temperatur“ vs. „Umsatz“ könnte wie folgt aussehen, wobei die meisten Daten unten gebündelt sind …

Temperatur vs. Umsatz für Verzerrte Umsatzdaten von Limonade

Die schwarze Linie stellt die Modellgleichung dar, die Vorhersage der Beziehung zwischen „Temperatur“ und „Umsatz“. Sehen Sie sich oben jede Prognose an, die von der schwarzen Linie für eine bestimmte „Temperatur“ erstellt wurde (z. B. wird bei „Temperatur“ 30 der Umsatz auf etwa 20 prognostiziert). Sie sehen, dass der Großteil der Punkte unterhalb der Linie liegt (d. h. die Vorhersage war zu hoch), aber einige Punkte befinden sich sehr weit über der Linie (d. h. die Vorhersage war viel zu niedrig).

Wenn Sie dieselben Daten in die Diagnosediagramme übersetzen, sind die meisten Prognosen der Gleichung etwas zu hoch und einige wären dann viel zu niedrig.

Beispiel: Prognostizierte im Vergleich zu Ist- und Restplots für Limonade

Auswirkungen

Dies bedeutet fast immer, dass Ihr Modell deutlich genauer werden kann. Meistens stellen Sie fest, dass das Modell im Vergleich zu einer verbesserten Version direkt korrekt, aber ziemlich ungenau war. Es ist nicht ungewöhnlich, ein solches Problem zu beheben und somit den r-quadrierten Sprung des Modells von 0,2 auf 0,5 (auf einer Skala von 0 bis 1) zu sehen.

So beheben Sie das Problem

  • Die Lösung hierfür besteht fast immer darin, Ihre Daten zu transformieren, in der Regel Ihre Response-Variable.
  • Es ist auch möglich, dass in Ihrem Modell eine Variable fehlt.

Heteroskedastizität

Restpolster, die Heteroskedastizität nachweisen

 

Zeigen Sie Details zu diesem Diagramm an und wie Sie es beheben können.

Problem

Diese Parzellen weisen eine „Heteroskedastizität“ auf, was bedeutet, dass die Residuen größer werden, wenn die Prognose von klein zu groß (oder von groß zu klein) wechselt.

Stellen Sie sich vor, an kalten Tagen ist der Umsatz sehr konsistent, aber an heißeren Tagen ist der Umsatz manchmal sehr hoch und manchmal sehr niedrig.

Folgende Diagramme werden angezeigt:

Heteroskedastizität in Graphen für Lemonade-Beispiel

Auswirkungen

Dies führt nicht von Natur aus zu einem Problem, aber es ist oft ein Indikator dafür, dass Ihr Modell verbessert werden kann.

Die einzige Ausnahme besteht darin, dass Ihre p-Werte etwas höher oder niedriger sein können, wenn Ihre Stichprobengröße unter 250 liegt und Sie das Problem nicht mithilfe der folgenden Angaben beheben können. Ihre p-Werte können etwas höher oder niedriger als sie sein sollten, sodass möglicherweise eine Variable, die sich direkt am Signifikanzrand befindet, fälschlicherweise auf der falschen Seite dieses Rahmens landet. Ihre Regressionskoeffizienten (die Anzahl der Einheiten „Umsatz“ ändert sich, wenn „Temperatur“ um eins steigt) sind jedoch immer noch genau.

So beheben Sie das Problem

  • Die am häufigsten erfolgreiche Lösung besteht darin, eine Variable zu transformieren.
  • Häufig deutet die Heteroskedastizität darauf hin, dass eine Variable fehlt.

Nichtlinear

Nichtlineare Restplots

 

Zeigen Sie Details zu diesem Diagramm an und wie Sie es beheben können.

Problem

Stellen Sie sich vor, es ist schwierig, Limonade an kalten Tagen zu verkaufen, sie an warmen Tagen einfach zu verkaufen und an sehr heißen Tagen nur schwer zu verkaufen (vielleicht, weil niemand ihr Haus an sehr heißen Tagen verlässt).

Dieser Plot würde wie folgt aussehen:

Temperatur versus Umsatz, wenn Daten parabolisch erscheinen

Das Modell, dargestellt durch die Linie, ist schrecklich. Die Vorhersagen wären weit entfernt, d. h., Ihr Modell stellt die Beziehung zwischen „Temperatur“ und „Umsatz“ nicht genau dar.

Dementsprechend würden Residuen wie folgt aussehen:

Nicht lineare Diagramme für prognostizierte im Vergleich zu Ist-Werten und Residuen

Auswirkungen

Wenn Ihr Modell entfernt ist, wie im obigen Beispiel, sind Ihre Prognosen ziemlich wertlos (und Sie stellen fest, dass das R-Quadrat sehr niedrig ist, wie das Quadrat von 0,027 für die oben genannten).

In anderen Fällen vermittelt Ihnen eine leicht suboptimale Anpassung dennoch einen guten allgemeinen Sinn für die Beziehung, auch wenn sie nicht perfekt ist, wie im Folgenden dargestellt:

Grafische Darstellung einer akzeptablen, aber suboptimalen nichtlinearen Anpassung

Dieses Modell sieht ziemlich genau aus. Wenn man genau hinschaut (oder wenn man sich die Residuen anschaut), kann man erkennen, dass es hier ein bisschen ein Muster gibt – dass die Punkte auf einer Kurve stehen, dass die Linie nicht ganz übereinstimmt.

Prognostiziert vs. Ist sieht in Ordnung aus, aber Residuen sind nicht linear

Macht das was aus? Das liegt an Ihnen. Wenn Sie die Beziehung schnell verstehen, ist Ihre Gerade eine ziemlich anständige Annäherung. Wenn Sie dieses Modell für die Vorhersage und nicht für Erklärungen verwenden, würde wahrscheinlich das genaueste Modell diese Kurve berücksichtigen.

So beheben Sie das Problem

  • Manchmal weisen Muster wie diese darauf hin, dass eine Variable transformiert werden muss.
  • Wenn das Muster tatsächlich so klar ist wie in diesen Beispielen, müssen Sie wahrscheinlich ein nichtlineares Modell erstellen (es ist nicht so schwer, wie das klingt).
  • Oder wie immer ist es möglich, dass es sich um eine fehlende Variable handelt.

Ausreißer

Plots mit Ausreißern

 

Zeigen Sie Details zu diesem Diagramm an und wie Sie es beheben können.

Problem

Was ist, wenn einer Ihrer Datenpunkte statt der normalen 20er und 30er eine „Temperatur“ von 80 hat? Ihre Plots würden wie folgt aussehen:

Plots der Temperatur versus Umsatz mit einem Außentemperaturpunkt

Diese Regression hat einen ausstehenden Datenpunkt für die Eingabevariable „Temperatur“ (Ausreißer für eine Eingabevariable werden auch als „Hebelpunkte“ bezeichnet).

Was wäre, wenn einer Ihrer Datenpunkte statt der normalen 20–60 USD 160 USD an Umsatz hätte? Ihre Plots würden wie folgt aussehen:

Plots der Temperatur im Vergleich zum Umsatz mit einem ausstehenden Umsatzpunkt

Diese Regression hat einen ausstehenden Datenpunkt für die Ausgabevariable „Umsatz“.

Auswirkungen

Stats iQ führt eine Regressionsart aus, die im Allgemeinen nicht von Ausgabeausreißern betroffen ist (wie der Tag mit einem Umsatz von 160 USD), aber von Eingabeausreißern (wie eine „Temperatur“ in den 80ern). Im schlimmsten Fall kann Ihr Modell versuchen, sich diesem Punkt anzunähern, und zwar zu Lasten der Nähe zu allen anderen, und am Ende einfach völlig falsch sein, z. B.:

Grafik von Modellen mit und ohne Außentemperaturpunkt

Die blaue Linie entspricht wahrscheinlich dem Aussehen Ihres Modells, und die rote Linie ist das Modell, das Sie möglicherweise sehen, wenn Sie diesen Ausreißer bei „Temperatur“ 80 haben.

So beheben Sie das Problem

  • Es ist möglich, dass es sich um einen Mess- oder Dateneingabefehler handelt, bei dem der Ausreißer nur falsch ist. In diesem Fall sollten Sie ihn löschen.
  • Es ist möglich, dass das, was nur ein paar Ausreißer zu sein scheint, tatsächlich eine Stromverteilung ist. Ziehen Sie in Betracht, die Variable zu transformieren, wenn eine Ihrer Variablen eine asymmetrische Verteilung hat (d. h., sie ist nicht ansatzweise glockenförmig).
  • Wenn es sich tatsächlich um einen legitimen Ausreißer handelt, sollten Sie die Auswirkungen des Ausreißers bewerten.

Große Y-Achsen-Datenpunkte

Restplots mit großen Y-Achsen-Datenpunkten

Zeigen Sie Details zu diesem Diagramm an und wie Sie es beheben können.

Problem

Stellen Sie sich vor, es gibt zwei konkurrierende Limonadenstände in der Nähe. Meistens ist nur eine davon betriebsbereit. In diesem Fall ist Ihr Umsatz durchgängig gut. Manchmal ist keines von beiden aktiv, und der Umsatz nimmt ab; zu anderen Zeiten sind beide aktiv und es gibt Umsatzeinbußen.

„Umsatz“ vs. „Temperatur“ könnte so aussehen …

Temperatur vs. Umsatz für Daten mit großen Y-Achsen-Datenpunkten

… wobei diese oberste Zeile Tage sind, wenn kein anderer Stand angezeigt wird, und die unterste Zeile Tage, wenn beide anderen Tribünen im Geschäft sind.

Daraus würden sich folgende Restplots ergeben:

Vorhergesagte versus tatsächliche und verbleibende Plots für große Datenpunkte der Y-Achse

Das heißt, es gibt einige Datenpunkte auf beiden Seiten von 0, die Residuen von 10 oder höher aufweisen, was bedeutet, dass das Modell weit entfernt war.

Wenn Sie nun täglich Daten für eine Variable mit der Bezeichnung „Anzahl aktiver Limonadenständer“ erfassen würden, können Sie diese Variable Ihrem Modell hinzufügen, und dieses Problem wäre behoben. Oft haben Sie jedoch nicht die Daten, die Sie benötigen (oder sogar eine Vermutung darüber, welche Art von Variable Sie benötigen).

Auswirkungen

Ihr Modell ist nicht wertlos, aber es ist definitiv nicht so gut, als wenn Sie alle benötigten Variablen hätten. Du könntest es immer noch verwenden und so etwas wie sagen: „Dieses Modell ist meistens ziemlich genau, aber dann jedes Mal und ab.“ Ist das nützlich? Wahrscheinlich, aber das ist Ihre Entscheidung und es hängt davon ab, welche Entscheidungen Sie basierend auf Ihrem Modell treffen möchten.

So beheben Sie das Problem

  • Auch wenn dieser Ansatz in dem oben genannten Beispiel nicht funktionieren würde, lohnt es sich fast immer, sich umzusehen, ob es die Möglichkeit gibt, eine Variable sinnvoll zu transformieren.
  • Wenn das jedoch nicht funktioniert, müssen Sie wahrscheinlich Ihr Problem mit fehlenden Variablen lösen.

X-Achse nicht ausgeglichen

Restplots für Daten, bei denen die X-Achse nicht ausgeglichen ist

 

Zeigen Sie Details zu diesem Diagramm an und wie Sie es beheben können.

Problem

Stellen Sie sich vor, „Umsatz“ wird durch den nahegelegenen „Fußverkehr“ zusätzlich oder anstelle von „Temperatur“ angetrieben. Stellen Sie sich vor, aus welchen Gründen auch immer, Ihr Limonadenstand hat in der Regel einen niedrigen Umsatz, aber immer wieder bekommen Sie extrem hohe Umsatztage, so dass Ihr Umsatz so aussah…

Rechtsläufiges Fußverkehrshistogramm

… statt etwas symmetrischeres und glockenförmiges wie das Folgende:

Symmetrisches Temperaturhistogramm

Also könnte „Fußverkehr“ vs. „Umsatz“ wie folgt aussehen, wobei die meisten Daten auf der linken Seite angezeigt werden:

Graphik des Fußverkehrs im Vergleich zum Umsatz

Die schwarze Linie stellt die Modellgleichung dar, die Vorhersage der Beziehung zwischen „Fußverkehr“ und „Umsatz“. Sie sehen, dass das Modell nicht wirklich den Unterschied zwischen „Fußverkehr“ von 0 und von beispielsweise 100 oder 1.000 unterscheiden kann. Für jeden dieser Werte würde der Umsatz bei 53 US-Dollar prognostiziert.

Übersetzen derselben Daten in die Diagnosediagramme:

Vorhergesagte vs. tatsächliche und verbleibende Plots für das Modell „Foot Traffic“

Auswirkungen

Manchmal stimmt eigentlich nichts mit Ihrem Modell. Im obigen Beispiel ist es ganz klar, dass dies kein gutes Modell ist, aber manchmal ist der Restplot unausgewogen und das Modell ziemlich gut.

Die einzige Möglichkeit, dies zu erkennen, besteht darin, a) mit der Transformation Ihrer Daten zu experimentieren und zu prüfen, ob Sie sie verbessern können, und b) den prognostizierten vs. tatsächlichen Graphen zu betrachten und zu prüfen, ob Ihre Prognose für viele Datenpunkte absichtlich ist, wie im obigen Beispiel (im Gegensatz zum Beispiel unten).

Diagramm „Acceptable Predicted versus Actual“ mit einer unausgeglichenen X-Achse

Es gibt zwar keine explizite Regel, die besagt, dass Ihr Rest nicht unausgewogen und dennoch genau sein kann (dieses Modell ist sogar ziemlich genau), aber es ist öfter der Fall, dass eine unausgeglichene x-Achse dazu führt, dass Ihr Modell deutlich genauer gestaltet werden kann. Meistens stellen Sie fest, dass das Modell im Vergleich zu einer verbesserten Version direkt korrekt, aber ziemlich ungenau war. Es ist nicht ungewöhnlich, ein solches Problem zu beheben und somit den r-quadrierten Sprung des Modells von 0,2 auf 0,5 (auf einer Skala von 0 bis 1) zu sehen.

So beheben Sie das Problem

  • Die Lösung hierfür ist fast immer die Transformation Ihrer Daten, in der Regel eine erklärende Variable. (Beachten Sie, dass das unten gezeigte Beispiel auf die Transformation Ihrer Response-Variable verweist, aber derselbe Prozess hier hilfreich ist.)
  • Es ist auch möglich, dass in Ihrem Modell eine Variable fehlt.

Verbessern Ihres Modells: Bewertung der Auswirkungen eines Ausreißers

Angenommen, Sie haben einen Datenpunkt außerhalb des Bereichs, der legitim ist, kein Mess- oder Datenfehler. Um zu entscheiden, wie Sie fortfahren möchten, sollten Sie die Auswirkungen des Datenpunkts auf die Regression bewerten.

Sie können dies am einfachsten tun, indem Sie die Koeffizienten Ihres aktuellen Modells notieren und dann diesen Datenpunkt aus der Regression herausfiltern. Wenn sich das Modell nicht viel ändert, dann muss man sich nicht viel Sorgen machen.

Wenn sich das Modell dadurch signifikant ändert, untersuchen Sie das Modell (insbesondere Ist vs. Prognose), und entscheiden Sie, welches Modell sich für Sie besser fühlt. Es ist in Ordnung, den Ausreißer letztendlich zu verwerfen, solange man theoretisch verteidigen kann: „In diesem Fall interessieren wir uns nicht für Ausreißer, sie sind einfach nicht von Interesse“ oder „Das war der Tag, an dem Uncle Jerry eingekauft und mir 100 Dollar gekippt hat. Das ist nicht vorhersehbar, und es lohnt sich nicht, in das Modell aufzunehmen.“

Verbessern Ihres Modells: Variablen transformieren

Übersicht

Die häufigste Methode zur Verbesserung eines Modells ist die Transformation einer oder mehrerer Variablen, in der Regel mithilfe einer „Protokoll“-Transformation.

Das Transformieren einer Variable ändert die Form ihrer Verteilung. In der Regel ist der beste Startort eine Variable mit einer asymmetrischen Verteilung im Gegensatz zu einer symmetrischen oder glockenförmigeren Verteilung. Suchen Sie eine Variable wie die folgende, um sie zu transformieren:

Rechtsläufiges Histogramm des Umsatzes

Im Allgemeinen funktionieren Regressionsmodelle besser mit symmetrischen, glockenförmigen Kurven. Probieren Sie verschiedene Arten von Transformationen aus, bis Sie auf diejenige stoßen, die dieser Form am nächsten kommt. Oft ist es nicht möglich, sich dem anzunähern, aber das ist das Ziel. Angenommen, Sie verwenden die Quadratwurzel von „Umsatz“ als Versuch, eine symmetrischere Form zu erreichen, und Ihre Verteilung sieht wie folgt aus:
Histogramm der Quadratwurzel des Umsatzes

Das ist gut, aber noch ein bisschen asymmetrisch. Lassen Sie uns versuchen, stattdessen das Erlösprotokoll zu verwenden, das folgende Form ergibt:
Histogramm des Erlösprotokolls

Das ist nett und symmetrisch. Sie werden wahrscheinlich ein besseres Regressionsmodell mit log(„Umsatz“) anstelle von „Umsatz“ erhalten. So können sich Ihre Gleichung, Ihre Residuen und Ihr R-Quadrat ändern:
Verbleibende Diagramme von nicht transformierten und transformierten Daten

Stats iQ zeigt eine kleine Version der Verteilung der Variablen inline mit der Regressionsgleichung an:Stats I.Q. zeigt kleines Histogramm der Verteilung an

Wählen Sie die Transformationsdrucktaste fx links neben der Variable …

Wählen Sie die Transformationsoption links neben dem Variablennamen aus.

… dann eine Transformation auswählen, meistens log(x) …

Transformation aus Dropdown-Liste auswählen

… prüfen Sie dann das Histogramm, um herauszufinden, ob es zentrierter ist, da dieses nach der Transformation angezeigt wird:
Histogramm der Transformation sieht symmetrischer aus

Nachdem Sie eine Variable transformiert haben, beachten Sie, wie sich ihre Verteilung, das R-Quadrat der Regression und die Muster des Restplots ändern. Wenn sich diese verbessern (insbesondere das R-Quadrat und die Residuen), ist es wahrscheinlich am besten, die Transformation beizubehalten.

Wenn eine Transformation erforderlich ist, sollten Sie zunächst eine „Protokoll“-Transformation durchführen, da die Ergebnisse Ihres Modells noch leicht verständlich sein werden. Beachten Sie jedoch, dass Probleme auftreten, wenn die Daten, die Sie zu transformieren versuchen, Nullen oder negative Werte enthalten. Wenn Sie erfahren möchten, warum das Erstellen eines Protokolls so nützlich ist oder wenn Sie nicht positive Zahlen transformieren möchten oder nur ein besseres Verständnis darüber erhalten möchten, was bei der Transformation von Daten passiert, lesen Sie die Details unten.

Details

Wenn du log10() einer Zahl nimmst, sagt man „10 an, was mir diese Zahl gibt“. Im Folgenden finden Sie beispielsweise eine einfache Tabelle mit vier Datenpunkten, die sowohl „Umsatz“ als auch log(„Umsatz“) enthält:

Temperatur Umsatz log(Umsatz)
20 100 2
30 1.000 3
40 10.000 4
45 31.623 4,5

 

Beachten Sie Folgendes: Wenn wir „Temperatur“ vs. „Umsatz“ und „Temperatur“ vs. log(„Umsatz“), das letztere Modell passt viel besser.
Bessere Anpassung des transformierten Modells

Das Interessante an dieser Transformation ist, dass Ihre Regression nicht mehr linear ist. Als „Temperatur“ von 20 auf 30 ging, ging „Umsatz“ von 10 auf 100, eine 90-Einheiten-Lücke. Als dann „Temperatur“ von 30 auf 40 ging, ging „Umsatz“ von 100 auf 1000, eine deutlich größere Lücke.

Wenn Sie ein Protokoll Ihrer Response-Variablen erstellt haben, ist es nicht mehr der Fall, dass eine Erhöhung der Temperatur um eine Einheit eine Steigerung des Umsatzes um eine X-Einheit bedeutet. Jetzt ist es ein X-Prozent-Plus bei „Umsatz“. In diesem Fall ist ein zehnstufiger Anstieg der „Temperatur“ mit einem Anstieg von 1000 % an Y verbunden, d.h. ein Anstieg der „Temperatur“ um eine Einheit ist mit einem Anstieg des „Umsatzes“ um 26 % verbunden.

Beachten Sie auch, dass Sie das Protokoll von 0 oder einer negativen Zahl (es gibt kein X mit 10X = 0 oder 10X= -5) nicht verwenden können. Wenn Sie also eine Protokolltransformation durchführen, gehen diese Datenpunkte aus der Regression verloren. Es gibt vier häufige Möglichkeiten, mit der Situation umzugehen:

  1. Verwenden Sie eine Quadratwurzel oder eine Würfelwurzel. Diese werden die Form der Kurve nicht so dramatisch verändern wie ein Protokoll, aber sie ermöglichen es, dass Nullen in der Regression verbleiben.
  2. Wenn nicht zu viele Datenzeilen eine Null haben und diese Zeilen theoretisch nicht wichtig sind, können Sie mit dem Protokoll fortfahren und einige Zeilen aus Ihrer Regression verlieren.
  3. Anstatt log(y) zu verwenden, verwenden Sie log(y+1), sodass Nullen zu eins werden und dann in der Regression beibehalten werden können. Dies verfälscht Ihr Modell ein bisschen und ist etwas verblüfft, aber in der Praxis sind seine negativen Nebenwirkungen in der Regel ziemlich gering.

Verbessern Ihres Modells: Fehlende Variablen

Der häufigste Grund dafür, dass ein Modell nicht passt, ist, dass nicht alle richtigen Variablen enthalten sind. Für dieses spezielle Problem gibt es viele mögliche Lösungen.

Neue Variable hinzufügen

Manchmal ist die Korrektur so einfach wie das Hinzufügen einer weiteren Variable zum Modell. Wenn beispielsweise der Verkehr bei Limonaden-„Umsatz“ an Wochenenden viel größer war als Wochentage, könnte Ihr vorhergesagter vs. tatsächlicher Plot wie folgt aussehen (R-Quadrat 0,053), da das Modell nur den Durchschnitt der Wochenendtage und Wochentage annimmt:
Im Datendiagramm fehlt eine Variable.

Wenn das Modell eine Variable namens „Wochenende“ enthält, könnte der prognostizierte vs. tatsächliche Plot wie folgt aussehen (R-Quadrat von 0,974):
Grafische Darstellung von Daten mit zweiter hinzugefügter Variable

Das Modell erstellt weitaus genauere Prognosen, da es berücksichtigen kann, ob ein Wochentag ein Wochentag ist oder nicht.

Beachten Sie, dass Sie manchmal Variablen in Stats iQ anlegen müssen, um Ihr Modell auf diese Weise zu verbessern. Beispiel: Sie haben eine Datumsvariable (mit Werten wie „26.10.2014“) und müssen unter Umständen eine neue Variable mit der Bezeichnung „Wochentag“ (d. h. Sonntag) oder „Wochenende“ (d. h. Wochenende) anlegen.

Nicht verfügbare ausgelassene Variable

Selten ist es aber so einfach. Häufig ist die relevante Variable nicht verfügbar, da Sie nicht wissen, was sie ist oder schwer zu sammeln war. Vielleicht war es kein Wochenend- vs. Wochentagsproblem, sondern so etwas wie „Anzahl der Mitbewerber in der Gegend“, das du damals nicht sammeln konntest.

Wenn die benötigte Variable nicht verfügbar ist oder Sie gar nicht wissen, was sie sein würde, kann Ihr Modell nicht wirklich verbessert werden, und Sie müssen es bewerten und entscheiden, wie zufrieden Sie damit sind (ob es nützlich ist oder nicht, obwohl es fehlerhaft ist).

Interaktionen zwischen Variablen

Vielleicht verkauft sich an Wochenenden der Limonadenstand immer mit 100 Prozent Kapazität, also unabhängig von der „Temperatur“ ist „Umsatz“ hoch. Doch an Wochentagen ist der Limonadenstand deutlich weniger beschäftigt, so dass „Temperatur“ ein wichtiger Treiber von „Umsatz“ ist. Wenn Sie eine Regression ausgeführt haben, die „Wochenende“ und „Temperatur“ enthielt, sehen Sie möglicherweise einen prognostizierten vs. tatsächlichen Graphen wie diesen, wobei die Zeile oben die Wochenendtage sind.
Grafische Darstellung eines zweivariablen Modells ohne Interaktion

Man würde sagen, dass es eine Interaktion zwischen „Wochenende“ und „Temperatur“ gibt, wobei sich der Effekt eines davon auf „Umsatz“ je nach Wert des anderen unterscheidet. Wenn wir eine Interaktionsvariable anlegen, erhalten wir ein wesentlich besseres Modell, bei dem prognostiziert vs. tatsächlich wie folgt aussieht:
Plot eines zweivariablen Modells mit Interaktion hinzugefügt

Verbessern Sie Ihr Modell: Unlinearität beheben

Angenommen, Sie haben eine Beziehung, die wie folgt aussieht:

Grafische Darstellung nichtlinearer Daten mit linearem Modell

Sie stellen unter Umständen fest, dass die Form einer Parabolie, die Sie möglicherweise zurückrufen, typischerweise mit Formeln verknüpft ist, die wie folgt aussehen:

y = x2 + x + 1

Standardmäßig verwendet die Regression ein lineares Modell, das wie folgt aussieht:

y = x + 1

Tatsächlich hat die Linie im Diagramm oben folgende Formel:

y = 1,7x + 51

Aber es passt furchtbar. Wenn wir also x2 hinzufügen, hat unser Modell eine bessere Chance, die Kurve anzupassen. Tatsächlich legt sie Folgendes an:

Darstellung nichtlinearer Daten mit nichtlinearem Modell

Die Formel für diese Kurve lautet:

y = –2×2 +111x – 1408

Das bedeutet, dass sich unsere Diagnosediagramme von dieser …

Diagnosediagramme mit linearem Modell

… dazu:

Diagnosediagramme mit nicht-linearem Modell

Beachten Sie, dass es sich hierbei um gesunde Diagnosediagramme handelt, auch wenn die Daten auf der rechten Seite unausgewogen erscheinen.

Der obige Ansatz kann auf andere Formen, insbesondere eine S-förmige Kurve, ausgedehnt werden, indem ein x3-Term hinzugefügt wird. Das ist aber relativ selten.

Vorsicht:

  • Wenn Sie aufgrund eines nicht linearen Musters in Ihren Daten einen x2-Begriff haben, möchten Sie im Allgemeinen einen guten alten x-Begriff haben. Ihr Modell ist vielleicht vollkommen gut ohne es, aber Sie sollten auf jeden Fall versuchen, beides zu starten.
  • Die Regressionsgleichung kann schwer verständlich sein. Für die lineare Gleichung zu Beginn dieses Abschnitts ging für jede zusätzliche Einheit von „Temperatur“ „Umsatz“ um 1,7 Einheiten hoch. Wenn Sie sowohl x2 als auch x in der Gleichung haben, ist es nicht einfach zu sagen: „Wenn die Temperatur um einen Grad ansteigt, passiert das.“ Manchmal ist es aus diesem Grund einfacher, einfach eine lineare Gleichung zu verwenden, vorausgesetzt, dass die Gleichung gut genug passt.

Häufig gestellte Fragen

Viele Seiten dieses Portals wurden mithilfe maschineller Übersetzung aus dem Englischen übersetzt. Obwohl wir bei Qualtrics die bestmögliche maschinelle Übersetzung ausgewählt haben, um ein möglichst gutes Ergebnis zu bieten, ist maschinelle Übersetzung nie perfekt. Der englische Originaltext gilt als offizielle Version. Abweichungen zwischen dem englischen Originaltext und den maschinellen Übersetzungen sind nicht rechtlich bindend.