KARRIERE (EN)

Stellenangebote (EN)

Menschen bei Qualtrics (EN)

Vertriebsteam (EN)

Technikteam (EN)

Customer Success Team (EN)

Rechercheservice-Team (EN)

ÜBER

Kontakt

5 For The Fight (EN)

Vielfalt, Gerechtigkeit und Inklusion (EN)

Nachrichten (EN)

Partnerschaften (EN)

Markenbuch (EN)

Unser Dienstleistungsangebot
Wir stellen ein!
STELLEN ANZEIGEN (EN)
Kunden

Hugo Boss + Qualtrics

Telefónica + Qualtrics

Under Armour + Qualtrics

BMW + Qualtrics

PARTNERSCHAFTEN (EN)

Partner werden (EN)
Under Armour + Qualtrics

Volkswagen + Qualtrics
WAS IST XM?

Customer Experience

Employee Experience

Product Experience

Brand Experience

Market Research

EVENTS UND WEBINARE

Aufgezeichnete Events und Webinare

Ressourcen

Blog (EN)

Marktforschungsergebnisse (EN)

Analystenberichte (EN)

Vorlagen (EN)

eBooks

Support

Community (EN)

Schulungen nach Maß (EN)

Produkt-Updates (EN)

Integrationen (EN)

Zertifizierung (EN)

XM-Marketplace
Was ist Experience Management?
LERNEN SIE UNSERE XM GUIDES KENNEN

Produkte

BRAND XM
Überblick
Produkte und Anwendungsfälle
Marken-Tracking
Testen von Werbung

XM Services
Überblick
Forschungsdienstleistungen
Überblick
Online-Stichproben

Lösungen

Branchen

Finanzdien stleister
Überblick

Behörden
Überblick

Luftfahrt
Überblick
BELIEBTE LÖSUNGEN
Customer Experience Management
Brand Tracking

Rollen

Digital
Überblick
BELIEBTE LÖSUNGEN
Website- und App-Feedback
Reputationsmanagement
Digital CX
WEITERFÜHRENDE RESSOURCEN
Artikel: Digital Customer Experience Management

Customer Service
Überblick
BELIEBTE LÖSUNGEN
Betreuung der Kund:innen
WEITERFÜHRENDE RESSOURCEN
Artikel: Betreuung der Kund:innen - Definition, Konzepterstellung und Tipps

Unternehmen

Kunden

PARTNERSCHAFTEN (EN)
Überblick
Partner werden (EN)

Ressourcen

Residualdiagramme interpretieren und die Regression verbessern

Inhalt Dieser Seite:

Wenn Sie eine Regression durchführen, berechnet Stats iQ automatisch die Residuen und stellt sie dar, um Ihnen zu helfen, Ihr Regressionsmodell zu verstehen und zu verbessern. Im Folgenden erfahren Sie alles, was Sie über die Interpretation von Residuen wissen müssen (einschließlich Definitionen und Beispiele).

Beobachtungen, Vorhersagen und Residuen

Um zu demonstrieren, wie Residuen zu interpretieren sind, werden wir den Datensatz eines Limonadenstands verwenden, bei dem jede Zeile einen Tag mit „Temperatur“ und „Umsatz“ darstellt.

Temperatur (Celsius)	Umsatz
28,2	44 $
21,4	23 $
32,9	43 $
24,0	30 $
usw.	usw.

Die Regressionsgleichung, die die Beziehung zwischen „Temperatur“ und „Umsatz“ beschreibt, lautet:

Umsatz = 2,7 * Temperatur – 35

Nehmen wir an, die Temperatur am Limonadenstand betrug 30,7 Grad und der „Umsatz“ entsprach 50 $. 50 ist Ihr beobachteter bzw. tatsächlicher Erlös, also der Wert, der wahr ist.

Wenn wir als Wert für „Temperatur“ 30,7 eingeben ...

Umsatz = 2,7 * 30,7 – 35
Umsatz = 48

...erhalten wir 48 $. Das ist der vorhergesagte Wert für diesen Tag. Aus der Regressionsgleichung würde sich ergeben, dass dies der Wert für „Umsatz“ ist, basierend auf der „Temperatur“.

Ihr Modell ist natürlich nicht immer perfekt. In diesem Fall liegt die Vorhersage um 2 daneben. Diese Differenz, die 2, wird als Restwert bezeichnet. Der Restwert ist das, was übrig bleibt, wenn Sie den vorhergesagten Wert vom beobachteten Wert subtrahieren.

Restwert = Beobachtet – Vorhergesagt

Sie können sich vorstellen, dass jede Zeile jetzt zusätzlich einen vorausgesagten Wert und einen Restwert aufweist.

Temperatur (Celsius)	Umsatz (Beobachtet)	Umsatz (Vorhergesagt)	Restwert (Beobachtet – Vorhergesagt)
28,2	44 $	41 $	3 $
21,4	23 $	23 $	0 $
32,9	43 $	54 $	-11 $
24,0	30 $	29 $	1 $
usw.	usw.	usw.	usw.

Wir werden die beobachteten, vorhergesagten und Restwerte verwenden, um das Modell zu bewerten und zu verbessern.

Verstehen der Genauigkeit vom Beobachteten im Vergleich zum Vorhergesagten

In einem einfachen Modell wie diesem, mit nur zwei Variablen, bekommen Sie ein Gefühl dafür, wie genau das Modell ist, indem Sie lediglich „Temperatur“ und „Umsatz“ in Beziehung setzen. Hier ist derselbe Regressionslauf für zwei verschiedene Limonadenstände, einer, bei dem das Modell sehr genau ist, einer, bei dem das Modell ungenau ist:

Es wird deutlich, dass für beide Limonadenstände eine höhere „Temperatur“ in Beziehung zu einem höherem „Umsatz“ steht. Bei einer gegebenen „Temperatur“ können Sie den „Umsatz“ des linken Limonadenstandes viel genauer vorhersagen als den des rechten Limonadenstandes, was bedeutet, dass das Modell viel genauer ist.

Jedoch haben die meisten Modelle mehr als eine erklärende Variable, und es ist nicht praktisch, mehr Variablen in einem Diagramm wie diesem darzustellen. Lassen Sie uns stattdessen die vorhergesagten Werte den beobachteten Werten für dieselben Datensätze gegenüberstellen.

Auch hier ist das Modell für das Diagramm links sehr genau; es gibt eine starke Korrelation zwischen den Vorhersagen des Modells und seinen tatsächlichen Ergebnissen. In dem Modell für das Diagramm ganz rechts ist das Gegenteil der Fall; die Vorhersagen des Modells sind überhaupt nicht gut.

Beachten Sie, dass bei diesen Diagrammen im Gegensatz zu den „Temperatur“ vs "Umsatz"-Diagrammen darüber die x-Achse den vorhergesagten „Umsatz“ statt der „Temperatur“ enthält. Das ist üblich, wenn Ihre Regressionsgleichung nur eine erklärende Variable hat. Häufiger jedoch haben Sie mehrere erklärende Variablen, und diese Diagramme sehen ganz anders aus als die mit einer einzelnen erklärenden Variable im Vergleich zum „Umsatz“.

Vorhersage im Vergleich zum Restwert („Residualdiagramm“)

Die Restwerte werden ermittelt, indem die vorhergesagten Werte auf der x-Achse und die Restwerte auf der y-Achse dargestellt werden.

(Stats iQ stellt Restwerte als standardisierte Restwerte dar, was bedeutet, dass sich jedes Residualdiagramm, das Sie für jedes Modell betrachten, auf derselben standardisierten y-Achse befindet.)

Im rechten Diagramm ist jeder Punkt ein Tag, wobei die vom Modell gemachte Vorhersage auf der x-Achse und die Genauigkeit der Vorhersage auf der y-Achse steht. Der Abstand von der Linie bei 0 zeigt, wie schlecht die Vorhersage für diesen Wert war.

Da …

Restwert = Beobachtet – Vorhergesagt

... bedeuten positive Werte für den Restwert (auf der y-Achse), dass die Vorhersage zu niedrig war, und negative Werte bedeuten, dass die Vorhersage zu hoch war. 0 bedeutet, dass die Vermutung korrekt war.

Im Idealfall sieht Ihr Residualdiagramm wie eines von diesen aus:

Das heißt,
(1) die Verteilung ist recht symmetrisch und neigt zu einem Cluster in der Diagrammmitte.
(2) es gibt eine Clusterbildung bei den unteren einstelligen Werten der y-Achse (z. B. 0,5 oder 1,5 nicht 30 oder 150).
(3) im Allgemeinen gibt es keine klaren Muster.

Hier sind einige Residualdiagramme, die diese Anforderungen nicht erfüllen:

Diese Diagramme sind vertikal nicht gleichmäßig verteilt, haben einen Ausreißerwert, oder eine klare Form.

Wenn Sie ein klares Muster oder einen Trend in Ihren Restwerten erkennen können, lässt sich Ihr Modell noch verbessern.

Im Folgenden wird erklärt, warum dies so ist und was man dagegen unternehmen kann.

Wie viel macht es aus, wenn mein Modell nicht perfekt ist?

Wie besorgt sollten Sie sein, wenn Ihr Modell nicht perfekt ist und Ihre Restwerte ein wenig unpräzise aussehen? Das hängt von Ihnen ab.

Wenn Sie eine Doktorarbeit in Teilchenphysik veröffentlichen, wollen Sie wahrscheinlich sicherstellen, dass Ihr Modell so genau wie möglich ist. Wenn Sie eine schnelle Analyse des Limonadenstandes Ihres Neffen durchzuführen, könnte ein weniger perfektes Modell gut genug sein, um Ihre Fragen zu beantworten (z. B., ob die „Temperatur“ einen Einfluss auf den „Umsatz“ hat).

Meistens ist ein annehmbares Modell besser als gar keines. Nehmen Sie also Ihr Modell, versuchen Sie, es zu verbessern, und entscheiden Sie dann, ob die Genauigkeit ausreichend ist, um für Ihre Zwecke nützlich zu sein.

Beispiel für Residualdiagramme und Diagnosen

Wenn Sie nicht sicher sind, was ein Restwert ist, lesen Sie den oberen Teil, und kommen Sie dann hierher zurück.

Nachfolgend finden Sie eine Auswahl unpräziser Residualdiagramme. Ihr Restwert sieht möglicherweise aus wie einer der dargestellten Typen oder wie eine Kombination aus mehreren.

Im ersten Fall, klicken Sie auf den Restwert, um zu verstehen, was passiert, und um zu erfahren, wie Sie ihn korrigieren können.

(Im Folgenden verwenden wir als Beispiel-Datensatz den „Umsatz“ eines Limonadenstandes im Vergleich zur „Temperatur“ des Tages).

Unsymmetrische y-Achse

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Stellen Sie sich vor, dass Ihr Limonadenstand, aus welchen Gründen auch immer, normalerweise niedrige Umsätze hat, aber hin und wieder auch sehr umsatzstarke Tage aufweist. Der „Umsatz“ sieht aus wie folgt ...

... statt etwas symmetrischer und glockenförmiger wie folgt:

So könnte „Temperatur“ im Vergleich zum „Umsatz“ aussehen, wobei die meisten Daten im unteren Bereich liegen ...

Die schwarze Linie stellt die Modellgleichung dar, also die Vorhersage des Modells für die Beziehung zwischen „Temperatur“ und „Umsatz“. Schauen Sie sich oben die einzelnen Vorhersagen an, die durch die schwarze Linie für eine bestimmte „Temperatur“ gemacht werden (z. B. wird bei einer „Temperatur“ von 30 ein „Umsatz“ von etwa 20 vorhergesagt). Sie sehen, dass die Mehrheit der Punkte unterhalb der Linie liegt (d. h. die Vorhersage war zu hoch), aber einige wenige Punkte liegen sehr weit oberhalb der Linie (d. h. die Vorhersage war viel zu niedrig).

Wenn man dieselben Daten auf die Diagnosediagrame überträgt, wären die meisten Vorhersagen der Gleichung etwas zu hoch, und einige wären dann viel zu niedrig.

Auswirkungen

Das bedeutet fast immer, dass Ihr Modell deutlich genauer sein könnte. Meistens werden Sie feststellen, dass das Modell zwar tendenziell korrekt, aber im Vergleich zu einer verbesserten Version ziemlich ungenau war. Es ist nicht ungewöhnlich, dass nach der Lösung eines solchen Problems das r-Quadrat des Modells von 0,2 auf 0,5 springt (auf einer Skala von 0 bis 1).

Lösungswege

Die Lösung dafür ist fast immer, Ihre Daten zu transformieren (EN), normalerweise die Antwortvariable.
Es ist auch möglich, dass Ihrem Modell eine Variable fehlt.

Heteroskedastizität

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Diese Diagramme weisen eine „Heteroskedastizität“ auf, was bedeutet, dass die Restwerte größer werden, sobald die Vorhersage von klein zu groß (oder von groß zu klein) geht.

Stellen Sie sich vor, dass an kalten Tagen die Höhe des Umsatzes sehr konstant ist, aber an wärmeren Tagen ist der Umsatz manchmal sehr hoch und manchmal sehr niedrig.

Die Diagramme würden aussehen wie folgt:

Auswirkungen

Dies stellt nicht per se ein Problem dar, ist aber oft ein Indikator dafür, dass Ihr Modell verbesserungsfähig ist.

Die einzige Ausnahme hier ist, dass, wenn Ihre Stichprobengröße weniger als 250 beträgt, und Sie das Problem nicht mit den unten aufgeführten Methoden beheben können, Ihre p-Werte möglicherweise etwas höher oder niedriger sind, als sie sein sollten. Daher kann es sein, dass eine Variable, die genau an der Grenze zur Signifikanz liegt, auf der falschen Seite dieser Grenze liegt. Ihre Regressionskoeffizienten (die Anzahl der Einheiten, um die sich „Umsatz“ ändert, wenn „Temperatur“ um eine Einheit ansteigt) sind jedoch weiterhin korrekt.

Lösungswege

Die am häufigsten erfolgreiche Lösung ist es, eine Variable zu transformieren.
Oft weist Heteroskedastizität darauf hin, dass eine Variable fehlt.

Nichtlinear

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Möglicherweise ist es schwer, Limonade an kalten Tagen zu verkaufen, leicht an warmen Tagen und wiederum schwer an sehr heißen Tagen (vielleicht, weil an sehr heißen Tagen niemand das Haus verlässt).

Dieses Diagramm würde aussehen wie folgt:

Das Modell, dargestellt durch die Linie, ist unzureichend. Die Vorhersagen würden weit daneben liegen, was bedeutet, dass Ihr Modell die Beziehung zwischen „Temperatur“ und „Umsatz“ ungenau abbildet.

Dementsprechend würden Restwerte aussehen wie folgt:

Auswirkungen

Wenn Ihr Modell weit daneben liegt, wie im obigen Beispiel, wären Ihre Vorhersagen wertlos (und Sie werden ein sehr niedriges r-Quadrat bemerken, wie das 0,027 r-Quadrat für das obige Beispiel).

In anderen Fällen zeigt eine suboptimale Anpassung immer noch eine Tendenz für die Beziehung, auch wenn sie nicht perfekt ist, wie in der folgenden Abbildung:

Das Modell erscheint recht genau. Wenn Sie genau hinschauen (oder wenn Sie sich die Restwerte ansehen), können Sie ein Muster erkennen, wobei die Punkte auf einer Kurve liegen, die nicht ganz mit der Linie übereinstimmt.

Ist das wichtig? Das liegt an Ihnen. Um ein gutes Verständnis der Beziehung zu bekommen, ist Ihre gerade Linie eine ziemlich gute Annäherung. Wenn Sie dieses Modell zur Vorhersage und nicht zur Erklärung verwenden möchten, würde das genaueste Modell wahrscheinlich diese Kurve berücksichtigen.

Lösungswege

Manchmal weisen Muster wie diese darauf hin, dass eine Variable transformiert (EN) werden muss.
Wenn das Muster tatsächlich so eindeutig ist wie in diesen Beispielen, müssen Sie wahrscheinlich ein nichtlineares Modell erstellen (was nicht so schwer ist, wie es klingt).
Oder, wie immer, ist es auch möglich, dass das Problem eine fehlende Variable ist.

Ausreißer

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Was passiert, wenn einer Ihrer Datenpunkte eine „Temperatur“ von 80 anstelle der normalen 20er und 30er hätte? Ihre Diagramme würden aussehen wie folgt:

Diese Regression weist einen Ausreißer-Datenpunkt bei einer Eingangsvariablen für „Temperatur“ auf (Ausreißer bei einer Eingangsvariablen werden auch als „Hebelpunkte“ bezeichnet).

Was wäre, wenn einer Ihrer Datenpunkte einen Umsatz von 160 $ statt der normalen 20 $ bis 60 $ aufweisen würde? Ihre Diagramme würden aussehen wie folgt:

Diese Regression weist einen Ausreißer-Datenpunkt bei einer Ausgangsvariablen für „Umsatz“ auf.

Auswirkungen

Stats iQ führt eine Art von Regression durch, die im Allgemeinen nicht von Umsatz-Ausreißern beeinflusst wird (wie der Tag mit 160 $ Umsatz), wohl aber von Eingangs-Ausreißern (wie eine „Temperatur“ von über 80 Grad). Im schlimmsten Fall schwenkt Ihr Modell um, da versucht wird, sich diesem Punkt (und damit auch allen anderen Punkten) anzunähern. Am Ende wäre es völlig falsch, wie hier:

Die blaue Linie ist wahrscheinlich das, was Sie sich für Ihr Modell wünschen, und die rote Linie ist das Modell, das Sie sehen könnten, wenn Sie den Ausreißer bei einer „Temperatur“ von 80 haben.

Lösungswege

Möglicherweise handelt es sich um einen Mess- oder Dateneingabefehler, bei dem der Ausreißerwert einfach falsch ist. In diesem Fall sollten Sie ihn löschen.
Es ist möglich, dass das, was nur ein paar Ausreißerwerte zu sein scheinen, in Wirklichkeit eine Leistungsverteilung ist. Ziehen Sie eine Transformation der Variablen in Betracht, wenn eine Ihrer Variablen eine asymmetrische Verteilung aufweist (d. h. nicht annähernd glockenförmig ist).
Handelt es sich um einen legitimen Ausreißer, sollten Sie die Auswirkungen des Ausreißerwerts beurteilen.

Mehrere Datenpunkte auf der y-Achse

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Stellen Sie sich vor, es gibt zwei weitere Limonadenstände. Die meiste Zeit ist nur einer der beiden geöffnet, dann ist der Umsatz durchweg gut. Es kommt vor, dass beide Konkurrenten geschlossen sind, und der Umsatz steigt an. Zu anderen Zeiten sind beide Konkurrenten geöffnet, und der Umsatz fällt ab.

„Umsatz“ im Vergleich zu „Temperatur“ könnte aussehen wie folgt:

Die obere Zeile entspricht Tagen, an denen beide Konkurrenten geschlossen sind. Die untere Zeile entspricht Tagen, an denen beide Konkurrenten geöffnet sind.

Das Ergebnis wären diese Residualdiagramme:

Das heißt, es gibt eine ganze Reihe von Datenpunkten auf beiden Seiten von 0, die Restwerte von 10 oder höher aufweisen. Das Modell würde weit daneben liegen.

Wenn Sie jeden Tag Daten für eine Variable namens „Anzahl der geöffneten Limonadenstände“ gesammelt hätten, könnten Sie diese Variable zu Ihrem Modell hinzufügen, und das Problem wäre behoben. Häufig haben Sie aber nicht die benötigten Daten (und keine Ahnung, welche Art von Variable Sie benötigen).

Auswirkungen

Ihr Modell ist nicht wertlos, aber es ist definitiv nicht so gut, wie es mit allen benötigten Variablen wäre. Sie könnten es immer noch verwenden und beispielsweise sagen: „Dieses Modell ist die meiste Zeit über ziemlich genau, aber ab und zu liegt es weit daneben.“ Ist das hilfreich? Ja wahrscheinlich, aber das ist Ihre Entscheidung, und es hängt davon ab, welche Entscheidungen Sie auf der Grundlage Ihres Modells treffen möchten.

Lösungswege

Auch wenn dieser Ansatz im obigen Beispiel nicht funktionieren würde, lohnt es sich fast immer, nach einer Möglichkeit zu suchen, eine Variable sinnvoll zu transformieren (EN).
Wenn das nicht funktioniert, müssen Sie sich wahrscheinlich mit dem Problem der fehlenden Variablen auseinandersetzen.

Unsymmetrische x-Achse

Zeigen Details des Residualdiagramms und Lösungswege.

Problem

Stellen Sie sich vor, dass der „Umsatz“ durch den nahegelegenen „Fußverkehr“ gesteigert wird. Dies geschieht zusätzlich oder trotz der „Temperatur“. Stellen Sie sich vor, dass Ihr Limonadenstand, aus welchen Gründen auch immer, normalerweise niedrige Umsätze hat, aber hin und wieder auch extrem umsatzstarke Tage aufweist, sodass Ihr Umsatz aussieht wie folgt ...

... statt etwas symmetrischer und glockenförmiger wie folgt:

So könnte „Fußverkehr“ im Vergleich zum „Umsatz“ aussehen, wobei die meisten Daten links liegen ...

Die schwarze Linie stellt die Modellgleichung dar, also die Vorhersage des Modells für die Beziehung zwischen „Fußverkehr“ und „Umsatz“. Sie können sehen, dass das Modell nicht wirklich den Unterschied zwischen „Fußverkehr“ 0 und, sagen wir, 100 oder 1.000 abbilden kann. Es würde für jeden Wert einen Umsatz von fast 53 $ voraussagen.

Wenn man dieselben Daten auf die Diagnosediagrame überträgt:

Auswirkungen

Manchmal ist Ihr Modell eigentlich ganz in Ordnung. Im obigen Beispiel ist es ziemlich klar, dass dies kein gutes Modell ist, aber manchmal ist nur das Residualdiagramm unsymmetrisch, und das Modell ziemlich gut.

Die einzigen Möglichkeiten, dies herauszufinden, sind a) mit der Transformation Ihrer Daten zu experimentieren und zu sehen, ob Sie sich verbessern lassen oder b) sich das vorausgesagte im Vergleich zum tatsächlichen Diagramm anzuschauen und zu sehen, ob Ihre Voraussage für viele Datenpunkte stark abweicht, wie im obigen Beispiel (aber im Gegensatz zum unteren Beispiel).

Zwar gibt es keine explizite Regel, die besagt, dass Ihr Restwert trotz Asymmetrie nicht genau ist (und tatsächlich ist dieses Modell ziemlich genau), aber es ist häufiger der Fall, dass ein Restwert auf der unsymmetrischen x-Achse bedeutet, dass Ihr Modell deutlich genauer gemacht werden könnte. Meistens werden Sie feststellen, dass das Modell zwar tendenziell korrekt, aber im Vergleich zu einer verbesserten Version ziemlich ungenau war. Es ist nicht ungewöhnlich, dass nach der Lösung eines solchen Problems das r-Quadrat des Modells von 0,2 auf 0,5 springt (auf einer Skala von 0 bis 1).

Lösungswege

Die Lösung dafür ist fast immer, Ihre Daten zu transformieren, normalerweise eine erklärende Variable. (Beachten Sie, dass sich das unten gezeigte Beispiel auf die Transformation Ihrer Antwortvariablen bezieht, aber der gleiche Prozess ist hier hilfreich).
Es ist auch möglich, dass Ihrem Modell eine Variable fehlt.

Ihr Modell verbessern: Auswirkungen eines Ausreißerwerts bewerten

Gehen wir davon aus, dass Sie einen Ausreißer-Datenpunkt haben, keinen Mess- oder Datenfehler. Um zu entscheiden, wie Sie weiter vorgehen, sollten Sie die Auswirkungen des Datenpunkts auf die Regression bewerten.

Am einfachsten ist es, wenn Sie die Koeffizienten Ihres aktuellen Modells notieren und diesen Datenpunkt aus der Regression herausfiltern. Wenn sich das Modell nur wenig ändert, ist alles in Ordnung.

Wenn sich das Modell erheblich ändert, prüfen Sie das Modell (insbesondere tatsächliches im Vergleich zum vorausgesagten Modell) und entscheiden Sie, welches Modell sich besser für Sie eignet. Es ist in Ordnung, den Ausreißer letztendlich zu verwerfen, solange Sie das theoretisch rechtfertigen können, indem Sie sagen: „In diesem Fall sind wir nicht an Ausreißerwerten interessiert, sie sind einfach nicht von Interesse“, oder „Das war der Tag, an dem Onkel Jerry einkaufte und mir 100 $ Trinkgeld gab; das ist nicht vorhersehbar, und es ist es nicht wert, in das Modell aufgenommen zu werden.“

Ihr Modell verbessern: Variablen transformieren

Übersicht

Die gebräuchlichste Methode zur Verbesserung eines Modells ist die Transformation einer oder mehrerer Variablen, in der Regel durch eine „Log“-Transformation.

Die Transformation einer Variablen ändert die Form ihrer Verteilung. Normalerweise beginnen Sie mit einer Variablen, die eine asymmetrische Verteilung aufweist, und nicht mit einer eher symmetrischen oder glockenförmigen Verteilung. Suchen Sie also eine Variable wie diese, die Sie transformieren möchten:

Im Allgemeinen arbeiten Regressionsmodelle besser mit symmetrischeren, glockenförmigen Kurven. Probieren Sie verschiedene Arten von Transformationen aus, bis Sie diejenige gefunden haben, die dieser Form am nächsten kommt. Häufig ist es nicht möglich, sich anzunähern, aber das ist das Ziel. Nehmen wir also an, Sie nehmen die Quadratwurzel aus „Umsatz“ als Versuch, zu einer symmetrischeren Form zu gelangen, und Ihre Verteilung sieht aus wie folgt:

Das ist gut, aber noch immer etwas unsymmetrisch. Versuchen wir stattdessen, den Logarithmus von „Umsatz“ zu nehmen, was diese Form ergibt:

Das ist symmetrisch. Sie erhalten wahrscheinlich ein besseres Regressionsmodell mit log(„Umsatz“) anstelle von „Umsatz“. Ihre Gleichung, Ihre Restwerte und Ihr r-Quadrat könnten sich folgendermaßen ändern:

Stats iQ zeigt eine kleine Version der Variablenverteilung in Übereinstimmung mit der Regressionsgleichung:

Wählen Sie die Transformation-Schaltfläche fx links neben der Variablen ...

... und wählen Sie eine Transformation, meisten log(x) …

... und untersuchen Sie das Histogramm, um zu sehen, ob es mehr zentriert ist, wie dieses hier nach der Transformation:

Beachten Sie nach der Transformation einer Variablen, wie sich ihre Verteilung, das r-Quadrat der Regression und die Muster des Residualdiagramms ändern. Wenn sich diese verbessern (insbesondere das r-Quadrat und die Restwerte), ist es wahrscheinlich am besten, die Transformation beizubehalten.

Wenn eine Transformation notwendig ist, sollten Sie mit einer „Log“-Transformation beginnen, da die Ergebnisse Ihres Modells immer noch leicht verständlich sein werden. Beachten Sie, dass es zu Problemen kommt, wenn die Daten, die Sie transformieren möchten, Nullen oder negative Werte enthalten. Wenn Sie erfahren möchten, warum ein Logarithmus so nützlich ist, oder wenn Sie negative Zahlen haben, die Sie transformieren möchten, oder wenn Sie einfach ein besseres Verständnis dafür bekommen möchten, was passiert, wenn Sie Daten transformieren, lesen Sie auch den folgenden Teil.

Details

Wenn Sie log₁₀() einer Zahl nehmen, fragen Sie „10 hoch wie viel ergibt diese Zahl?“ Im Folgenden steht eine beispielhafte einfache Tabelle mit vier Datenpunkten, einschließlich „Umsatz“ und Log(„Umsatz“):

Temperatur	Umsatz	Log(Umsatz)
20	100	2
30	1.000	3
40	10.000	4
45	31.623	4,5

Beachten Sie: Wenn wir „Temperatur“ vs. „Umsatz“ und „Temperatur“ vs. Log(„Umsatz“) auftragen, passt das letztere Modell viel besser.

Das Interessante an dieser Transformation ist, dass Ihre Regression nicht mehr linear ist. Als „Temperatur“ von 20 auf 30 stieg, stieg „Umsatz“ von 10 auf 100, ein Anstieg von 90 Einheiten. Als „Temperatur“ von 30 auf 40 stieg, stieg „Umsatz“ von 100 auf 1000, ein viel größerer Anstieg.

Wenn Sie einen Logarithmus Ihrer Antwortvariablen genommen haben, bedeutet eine Erhöhung der „Temperatur“ um eine Einheit nicht mehr eine Steigerung des „Umsatzes“ um x Einheiten. Jetzt ist es eine x-prozentige Steigerung des „Umsatzes“. In diesem Fall ist eine Erhöhung der „Temperatur“ um zehn Einheiten mit einer 1000%igen Steigerung von y verknüpft, das heißt, eine Erhöhung der „Temperatur“ um eine Einheit zieht eine 26%ige Erhöhung des „Umsatzes“ nach sich.

Beachten Sie auch, dass Sie nicht den Logarithmus von 0 oder einer negativen Zahl nehmen können (es gibt kein x, bei dem 10^x = 0, oder 10^x = -5 ist). Bei der Durchführung einer Logarithmentransformation, verlieren Sie diese Datenpunkte aus der Regression. Es gibt vier gebräuchliche Möglichkeiten, mit der Situation umzugehen:

Nehmen Sie eine Quadratwurzel oder eine Kubikwurzel. Diese ändern die Form der Kurve nicht so sehr wie die Logarithmierung, aber sie erlauben, dass Nullen in der Regression bleiben.
Wenn es nicht zu viele Datenzeilen sind, die eine Null haben, und diese Zeilen theoretisch nicht wichtig sind, können Sie sich entscheiden, mit dem Log weiterzumachen und ein paar Zeilen aus Ihrer Regression zu verlieren.
Anstatt log(y) zu nehmen, nehmen Sie log(y+1), so dass Nullen zu Einsen werden und dann in der Regression beibehalten werden können. Dies verzerrt Ihr Modell ein wenig und ist etwas verpönt, aber in der Praxis sind die negativen Auswirkungen in der Regel verschwindend gering.

Ihr Modell verbessern: Fehlende Variablen

Der wahrscheinlich häufigste Grund, warum ein Modell nicht passt, ist, dass nicht alle korrekten Variablen enthalten sind. Für dieses spezielle Problem gibt es eine Vielzahl von Lösungswegen.

Eine neue Variable hinzufügen

Manchmal ist die Lösung einfach: Fügen Sie Ihrem Modell eine weitere Variable hinzu. Wenn z. B. der „Umsatz“ am Limonadenstand an einem verkehrsreichen Wochenende viel größer ist als an Wochentagen, könnte Ihr vorausgesagtes im Vergleich zum tatsächlichen Diagramm aussehen wie folgt (r-Quadrat von 0,053), da das Modell sowohl am Wochenende als auch an Wochentagen den Durchschnitt berechnet:

Wenn das Modell eine Variable namens „Wochenende“ enthält, dann könnte das vorhergesagte im Vergleich zum tatsächlichen Diagramm aussehen wie folgt (r-Quadrat von 0,974):

Das Modell macht viel genauere Vorhersagen, weil es berücksichtigen kann, ob ein Tag ein Wochentag ist oder nicht.

Beachten Sie, dass Sie manchmal Variablen in Stats iQ erstellen müssen, um Ihr Modell auf diese Weise zu verbessern. Beispielsweise haben Sie eine Variable „Datum“ (mit Werten wie „10/26/2014“) und müssen eine neue Variable namens „Wochentag“ (d. h. Sonntag) oder „Wochenende“ (d. h. Wochenende) erstellen.

Nicht verfügbare ausgelassene Variable

So einfach ist es aber selten. Häufig ist die relevante Variable nicht verfügbar, weil unbekannt oder schwer zu erheben. Vielleicht ist es kein Problem bei Wochenende und Wochentag, wohl aber bei so etwas wie die „Anzahl der Konkurrenten in der Umgebung“, die Sie zu diesem Zeitpunkt nicht erfasst haben.

Wenn die Variable, die Sie benötigen, nicht verfügbar ist oder Sie nicht wissen, wie sie lauten könnte, kann Ihr Modell nicht wirklich verbessert werden, und Sie müssen bewerten und entscheiden, wie zufrieden Sie damit sind (ob es nützlich ist oder nicht, auch wenn es fehlerhaft ist).

Interaktionen zwischen Variablen

Vielleicht ist der Limonadenstand an Wochenenden immer zu 100 % ausgelastet, so dass unabhängig von der „Temperatur“ ein hoher „Umsatz“ erzielt wird. Aber an Wochentagen ist der Limonadenstand viel weniger ausgelastet, so dass „Temperatur“ ein wichtiger Treiber von „Umsatz“ ist. Wenn Sie eine Regression durchführen, die „Wochenende“ und „Temperatur“ einschließt, könnte das zu einem Diagramm wie dem folgenden führen, in dem die obere Reihe den Wochenendtagen entspricht.

Wir würden sagen, dass es eine Interaktion zwischen „Wochenende“ und „Temperatur“ gibt. Die Auswirkung des einen auf den „Umsatz“ ist je nach Wert des anderen unterschiedlich. Wenn wir eine Interaktionsvariable erstellen, erhalten wir ein viel besseres Modell, bei dem vorausgesagte im Vergleich zu tatsächlichen Werten folgendermaßen aussehen:

Ihr Modell verbessern: Nichtlinearität beheben

Nehmen wir an, Sie haben eine Beziehung, die aussieht wie folgt:

Vielleicht fällt Ihnen auf, dass es sich um die Form einer Parabel handelt, die typischerweise mit Formeln assoziiert wird, die wie diese aussehen:

y = x² + x + 1

Standardmäßig verwendet Regression ein lineares Modell, das aussieht wie folgt:

y = x + 1

Tatsächlich folgt die Linie in der obigen Grafik dieser Formel:

y = 1,7x + 51

Jedoch ist dies eine schlechte Anpassung. Wenn wir also einen x² Begriff hinzufügen, ist eine bessere Kurvenanpassung wahrscheinlich. Tatsächlich sieht es dann so aus:

Die Formel für diese Kurve lautet:

y = -2x² +111x – 1408

Das bedeutet, dass sich unsere diagnostischen Diagramme ändern, von diesem ...

... zu diesem:

Beachten Sie, dass dies wohlgeformte diagnostische Diagramme sind, obwohl die Daten auf der rechten Seite unsymmetrisch zu sein scheinen.

Der oben genannte Ansatz kann durch Hinzufügen eines x³ Begriffs auch auf andere Formen, insbesondere eine S-förmige Kurve, erweitert werden. Das ist jedoch recht ungewöhnlich.

Hier noch einige Hinweise:

Im Allgemeinen, wenn Sie einen x² Begriff aufgrund eines nichtlinearen Musters in Ihren Daten haben, möchten Sie einen einfachen x-nicht-x²-Begriff haben. Möglicherweise stellen Sie fest, dass Ihr Modell auch ohne diesen gut funktioniert, probieren Sie aber trotzdem beide aus.
Die Regressionsgleichung ist schwer zu verstehen. Bei der linearen Gleichung am Anfang dieses Abschnitts stieg „Umsatz“ für jede zusätzliche Einheit von „Temperatur“ um 1,7 Einheiten. Wenn Sie sowohl x² als auch x in der Gleichung haben, kann man nicht einfach sagen: „Wenn die Temperatur um ein Grad steigt, passiert folgendes.“ Manchmal ist es aus diesem Grund einfacher, eine lineare Gleichung zu verwenden, vorausgesetzt, diese Gleichung ist ausreichend.

Produkte

Top-Fallbeispiele

E-Book

Produkte

Top-Fallbeispiele

E-Book

Produkte und Anwendungsfälle

In neun Schritten zur erfolgreichen Marktforschung

Produkte und Anwendungsfälle

In neun Schritten zur erfolgreichen Marktforschung

Produkte und Anwendungsfälle

In neun Schritten zur erfolgreichen Marktforschung

Produkte und Anwendungsfälle

In neun Schritten zur erfolgreichen Marktforschung

Produkte

Top-Fallbeispiele

EXKLUSIV BEI XM PLUS: Unternehmen werden menschlicher

Die Experience Management-Plattform™

Plattform-Funktionen

XM-Marketplace

Experience-Kernbereiche

XM Services

Beratung

Implementierung

Support und Erfolg

Forschungsdienstleistungen

Lösungen für Bildung

BELIEBTE LÖSUNGEN

Lösungen für Technologie

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Einzelhandel

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Finanzdienstleister

Lösungen für Behörden

Lösungen für B2B

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Reisen und Gaststättengewerbe

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Automotive

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Luftfahrt

BELIEBTE LÖSUNGEN

Lösungen für Medien

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Marktforschung

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für CX Professionals

BELIEBTE LÖSUNGEN

Lösungen für Human Resources

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für alle digitalen Kanäle

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Produktmanagement

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Lösungen für Customer Service

BELIEBTE LÖSUNGEN

WEITERFÜHRENDE RESSOURCEN

Residualdiagramme interpretieren und die Regression verbessern

Inhalt Dieser Seite:

Beobachtungen, Vorhersagen und Residuen

Verstehen der Genauigkeit vom Beobachteten im Vergleich zum Vorhergesagten

Vorhersage im Vergleich zum Restwert („Residualdiagramm“)

Wie viel macht es aus, wenn mein Modell nicht perfekt ist?

Beispiel für Residualdiagramme und Diagnosen

Unsymmetrische y-Achse

Problem

Auswirkungen

Lösungswege

Heteroskedastizität

Problem

Die Experience Management-
Plattform^™

Lösungen für
Bildung

Lösungen für
Technologie

Lösungen für
Einzelhandel

Lösungen für
Finanzdienstleister

Lösungen für
Behörden

Lösungen für
B2B

Lösungen für
Reisen und Gaststättengewerbe

Lösungen für
Automotive

Lösungen für
Luftfahrt

Lösungen für
Medien

Lösungen für
Marktforschung

Lösungen für
CX Professionals

Lösungen für
Human Resources

Lösungen für alle
digitalen Kanäle

Lösungen für
Produktmanagement

Lösungen für
Customer Service