Interprétation des tracés résiduels pour améliorer votre régression

Suite

Customer Experience Employee Experience Strategy & Research

Produit

Qualtrics

Contenus de cette page

Lorsque vous exécutez une régression, Stats iQ calcule et trace automatiquement les résiduels pour vous aider à comprendre et à améliorer votre modèle de régression. Cet article contient tout ce que vous devez savoir sur l’interprétation des résiduels (y compris des définitions et des exemples).

Observations, prédictions et résiduels

Pour montrer comment interpréter les résiduels, nous utiliserons un ensemble de données de stands de limonade, où chaque ligne correspondait à un jour de « Température » et de « Chiffre d’affaires ».

Température (Celsius)	Chiffre d’affaires
28,2	44 USD
21,4	23 USD
32,9	43 USD
24,0	30 USD
etc.	etc.

L’équation de régression décrivant la relation entre la « Température » et le « Chiffre d’affaires » est la suivante :

Chiffre d’affaires = 2,7 * Température – 35

Disons qu’un jour, il faisait 30,7 degrés au stand de limonade et que le « Chiffre d’affaires » était de 50 $. Ce chiffre 50 est votre variable de sortie observée ou réelle, la valeur qui s’est réellement produite.

Donc, si nous insérons 30,7 à notre valeur pour la « Température »…

Chiffre d’affaires = 2,7 * 30,7 – 35
Chiffre d’affaires = 48

…nous obtenons 48 $. Il s’agit de la valeur prédite pour ce jour, également appelée valeur du « Chiffre d’affaires » que l’équation de régression aurait estimée en fonction de la « Température ».

Votre modèle n’est pas toujours parfait, bien sûr. Dans ce cas, la prédiction a un écart de 2 ; cette différence, le 2, est appelée le résiduel. Le résiduel est ce qui reste lorsque vous soustrayez la valeur prédite de la valeur observée.

Résiduel = Observé – Prédit

Vous pouvez imaginer que chaque ligne de données possède désormais, en plus, une valeur prédite et une valeur résiduelle.

Température (Celsius)	Chiffre d’affaires (Observé)	Chiffre d’affaires (Prédit)	Résiduel (Observé – Prédit)
28,2	44 USD	41 USD	3 USD
21,4	23 USD	23 USD	0 USD
32,9	43 USD	54 USD	-11 USD
24,0	30 USD	29 USD	1 USD
etc.	etc.	etc.	etc.

Nous allons utiliser les valeurs observées, prédites et résiduelles pour évaluer et améliorer le modèle.

Comprendre la précision à l’aide de la fonction Observé et Prédit

Dans un modèle simple comme celui-ci, avec seulement deux variables, vous pouvez avoir une idée de la précision du modèle en associant « Température » et « Chiffre d’affaires ». Voici la même analyse de régression effectuée sur deux stands de limonade différents, l’un où le modèle est très précis, l’autre où le modèle ne l’est pas :

Graphique illustrant les modèles de prédictions précis et imprécis

Il est clair que pour les deux stands de limonade, une « Température » plus élevée est associée à un « Chiffre d’affaires » plus élevé. Cependant, à une « Température » donnée, vous pouvez estimer le « Chiffre d’affaires » du stand de limonade de gauche avec beaucoup plus de précision que pour celui de droite, ce qui signifie que le modèle est beaucoup plus précis.

La plupart des modèles ont plus d’une variable explicative et il n’est pas pratique de représenter plus de variables dans un graphique comme celui-ci. À la place, traçons les valeurs prédites par rapport aux valeurs observées pour ces mêmes ensembles de données.

Graphiques Valeurs prédites par rapport aux. Valeurs réelles pour des modèles précis et imprécis.

Encore une fois, le modèle du graphique de gauche est très précis ; il existe une forte corrélation entre les prédictions du modèle et ses résultats réels. Avec le modèle pour le graphique de droite, c’est le contraire ; les prédictions du modèle ne sont pas très bonnes.

Notez que ces graphiques ressemblent aux graphiques « Température » par rapport au « Chiffre d’affaires » au-dessus d’eux, mais l’axe des x est prédit « Chiffre d’affaires » au lieu de « Température. » C’est courant lorsque votre équation de régression n’a qu’une seule variable explicative. Mais plus souvent, vous aurez plusieurs variables explicatives, et ces graphiques auront un aspect assez différent d’un graphique représentant n’importe quelle variable explicative vs. “Chiffre d’affaires”.

Examen Prédit vs. Résiduel (« Le tracé résiduel »)

La manière la plus utile de tracer les résiduels, cependant, est avec vos valeurs prédites sur l’axe des abscisses et vos résiduels sur l’axe des ordonnées.

(Stats iQ présente les résiduels sous forme de résiduels standardisés, ce qui signifie que chaque tracé résiduel que vous examinez avec n’importe quel modèle se trouve sur le même axe des ordonnées standardisé.)

Graphique Valeurs prédites vs. Valeurs réelles et graphique des résiduels standardisés

Dans le tracé de droite, chaque point représente un jour, où la prédiction faite par le modèle est sur l’axe des abscisses et la précision de la prédiction est sur l’axe des ordonnées. La distance de la ligne jusqu’au 0 correspond à l’imprécision de la prédiction de cette valeur.

Puisque…

Résiduel = Observé – Prédit

…Les valeurs positives pour la valeur résiduelle (sur l’axe des ordonnées) signifient que la prédiction était trop faible, et les valeurs négatives signifient que la prédiction était trop élevée ; 0 signifie que la supposition était exacte.

Dans l’idéal, votre tracé des valeurs résiduelles ressemble à l’un de ceux-ci :

Exemples de tracés résiduels standardisés souhaitables

C’est-à-dire :
(1) ils sont assez symétriquement distribués, tendant à se regrouper vers le milieu du tracé.
(2) ils sont regroupés autour des nombres à un chiffre les plus bas de l’axe des ordonnées (par exemple, 0,5 ou 1,5, et non 30 ou 150).
(3) en général, il n’y a pas de tendances nettes.

Voici quelques tracés résiduels qui ne répondent pas à ces conditions :

Exemples de tracés de résidus standardisés indésirables

Ces tracés ne sont pas distribués verticalement uniformément, ou ils ont une valeur aberrante, ou ils montrent un motif ou une tendance claire.

Si vous pouvez détecter un motif ou une tendance claire dans vos résiduels, votre modèle dispose alors d’une marge d’amélioration.

Nous allons ensuite expliquer pourquoi cela arrive et que faire pour améliorer votre modèle.

Tracé résiduel Q-Q normal :

Cliquez sur Afficher le tracé résiduel Q-Q normal pour afficher un tracé Q-Q évaluant l’asymétrie des données et l’adaptation du modèle. Ce diagramme affiche les résiduels standardisés sur l’axe y et les quantiles théoriques sur l’axe x.

Affiche une distribution QQ pour une adaptation de modèle disponible dans des régressions linéaires de stats iQ.

Les données qui s’alignent étroitement sur la ligne pointillée indiquent une distribution normale. Si les points s’écartent drastiquement de la ligne, vous pouvez envisager d’ajuster votre modèle en ajoutant ou en supprimant d’autres variables dans le modèle de régression.

Est-ce important si mon modèle n’est pas parfait ?

Dans quelle mesure devriez-vous vous inquiéter si votre modèle n’est pas parfait, si vos résiduels ont l’air un peu mauvais ? C’est à vous de voir.

Si vous publiez votre thèse en physique des particules, vous voudrez probablement vous assurer que votre modèle est aussi précis que possible. Si vous essayez d’effectuer une analyse « vite fait bien fait » du stand de limonade de votre neveu, un modèle imparfait pourrait suffire à répondre à toutes les questions que vous vous posez (p. ex., si la « Température » semble affecter le « Chiffre d’affaires »).

La plupart du temps, mieux vaut un modèle décent qu’aucun modèle. Alors, prenez votre modèle, essayez de l’améliorer, puis décidez si la précision est suffisamment bonne en fonction de vos besoins.

Exemple de tracés résiduels et leurs diagnostics

Si vous n’êtes pas sûr de ce qu’est un résiduel, prenez cinq minutes pour lire ce qui précède, puis revenez ici.

Vous trouverez ci-dessous une galerie de tracés résiduels mauvais. Votre tracé résiduel peut ressembler à un type spécifique ci-dessous, ou à une combinaison.

S’il ressemble à l’un de ceux présentés ci-dessous, cliquez dessus pour comprendre ce qui se passe et comment corriger le problème.

(Nous utiliserons le « Chiffre d’affaires » d’un stand de limonade par rapport à la « Température » de ce jour-là comme exemple d’ensemble de données.)

Axe des ordonnées déséquilibré

Afficher les détails sur ce tracé et comment le corriger.

Problème

Imaginez que, pour une raison quelconque, votre stand de limonade a généralement un chiffre d’affaires bas, mais que de temps en temps vous avez des jours avec un chiffre d’affaires très élevé, de sorte que le « Chiffre d’affaires » ressemble à cela…

Histogramme du chiffre d’affaires asymétrique pour l’exemple du stand de limonade

…au lieu d’obtenir que quelque chose de plus symétrique et en forme de cloche comme ceci :

Histogramme du chiffre d’affaires symétrique pour l’exemple du stand de limonade

Donc « Température » vs. « chiffre d’affaires » pourrait ressembler à cela, la plupart des données étant regroupées en bas…

Température en comparaison au Chiffre d’affaires pour données Limonade asymétriques

La ligne noire représente l’équation du modèle, la prédiction du modèle de la relation entre « Température » et « Chiffre d’affaires ». Regardez au-dessus de chaque prédiction faite par la ligne noire pour une « Température » donnée (p. ex., avec une « Température » de 30, le « Chiffre d’affaires » devrait être d’environ 20). Vous pouvez voir que la majorité des points sont sous la ligne (c’est-à-dire que la prédiction était trop élevée), mais quelques points sont très loin au-dessus de la ligne (c’est-à-dire que la prédiction était beaucoup trop faible).

En traduisant ces mêmes données dans les tracés de diagnostic, la plupart des prédictions de l’équation sont un peu trop élevées, et certaines seraient beaucoup trop faibles.

Prédit vs. Réel et Tracés résiduels pour l’exemple du stand de limonade

Conclusions

Cela signifie presque toujours que votre modèle peut être rendu beaucoup plus précis. La plupart du temps, vous constaterez que le modèle était correct sur le plan directionnel, mais assez inexact par rapport à une version améliorée. Il n’est pas rare de résoudre un problème comme celui-ci et, par conséquent, de voir le coefficient de détermination du modèle passer de 0,2 à 0,5 (sur une échelle de 0 à 1).

Comment corriger le modèle ?

La solution consiste presque toujours à transformer vos données, généralement votre variable de réponse.
Il est également possible qu’une variable manque à votre modèle.