Interprétation des tracés résiduels pour améliorer votre régression

Sur cette page:

Lorsque vous exécutez une régression, Stats iQ calcule et trace automatiquement les résidus pour vous aider à comprendre et à améliorer votre modèle de régression. Cet article contient tout ce que vous devez savoir sur l’interprétation des résidus (y compris des définitions et des exemples).

Observations, prédictions et résidus

Pour démontrer comment interpréter les résidus, nous utiliserons un ensemble de données d’un stand de limonade, où chaque ligne correspond à la « Température » et au « Chiffre d’affaires » du jour.

Température (Celsius) Chiffre d’affaires
28,2 44 USD
21,4 23 USD
32,9 43 USD
24,0 30 USD
etc. etc.

 

L’équation de régression décrivant le lien entre « Température » et « Chiffre d’affaires » est la suivante :

Chiffre d’affaires = 2,7 x Température – 35

Disons qu’un jour, il faisait 30,7 °C et que le « Chiffre d’affaires » était de 50 USD. Cette valeur 50 est votre résultat observé ou réel, la valeur qui s’est réellement produite.

Donc, si nous saisissons une valeur de 30,7 pour « Température »...

Chiffre d’affaires = 2,7 x 30,7 – 35
Chiffre d’affaires = 48

Nous obtenons 48 USD. Il s’agit de la valeur prédite pour ce jour, également appelée valeur pour « Chiffre d’affaires » que l’équation de régression aurait estimée en fonction de la « Température ».

Votre modèle n’est pas toujours parfait, bien sûr. Dans ce cas, la prédiction a un écart de 2 ; cette différence, le 2, est appelée le résidu. Le résidu est ce qui reste lorsque vous soustrayez la valeur estimée de la valeur observée.

Résidu = Valeur observée – Valeur estimée

Vous pouvez imaginer que, désormais, chaque ligne de données a également une valeur estimée et un résidu.

Température
(Celsius)
Chiffre d’affaires
(Observé)
Chiffre d’affaires
(Estimé)
Résidu
(Valeur observée – Valeur estimée)
28,2 44 USD 41 USD 3 USD
21,4 23 USD 23 USD 0 USD
32,9 43 USD 54 USD -11 USD
24,0 30 USD 29 USD 1 USD
etc. etc. etc. etc.

 

Nous allons utiliser les valeurs observées, estimées et le résidu pour évaluer et améliorer le modèle.

Comprendre la précision à l’aide des valeurs observées et estimées

Dans un modèle simple comme celui-ci, avec seulement deux variables, vous pouvez avoir une idée de la précision du modèle en associant « Température » et « Chiffre d’affaires ». Voici la même analyse de régression effectuée sur deux stands de limonade différents, l’un où le modèle est très précis, l’autre où le modèle ne l’est pas :
Graphique illustrant les modèles de prédictions précis et imprécis

Il est clair que pour les deux stands de limonade, une « Température » plus élevée est associée à un « Chiffre d’affaires » plus élevé. Cependant, à une « Température » donnée, vous pouvez estimer le « Chiffre d’affaires » du stand de limonade de gauche avec beaucoup plus de précision que pour celui de droite, ce qui signifie que le modèle est beaucoup plus précis.

La plupart des modèles ont plus d’une variable explicative et il n’est pas pratique de représenter plus de variables dans un graphique comme celui-ci. Comparons plutôt les valeurs estimées aux valeurs observées pour ces mêmes ensembles de données.
Graphiques des valeurs estimées comparés à ceux des valeurs réelles pour des modèles précis et imprécis.

Encore une fois, le modèle du graphique de gauche est très précis ; il existe une forte corrélation entre les prédictions du modèle et ses résultats réels. Avec le modèle pour le graphique de droite, c’est le contraire ; les prédictions du modèle ne sont pas très bonnes.

Notez que ces graphiques ressemblent fortement aux graphiques « Temperature »  en comparaison au « Chiffre d’affaires » ci-dessus, mais l’axe des abscisses correspondant maintenant au « Chiffre d’affaires » estimé au lieu de la « Temperature ». C’est courant lorsque votre équation de régression n’a qu’une seule variable explicative. Cependant, vous aurez plus souvent de multiples variables explicatives, et ces graphiques seront assez différents d’un graphique à une variable explicative en comparaison au « Chiffre d’affaires ».

Examiner le tracé Valeur estimée comparé au Résidu (« Le traçage du résidu »)

La manière la plus utile de tracer les résidus, cependant, est avec vos valeurs estimées sur l’axe des abscisses et vos résidus sur l’axe des ordonnées.

(Stats iQ présente les résidus sous forme de résidus standardisés, ce qui signifie que chaque tracé résiduel que vous examinez avec n’importe quel modèle se trouve sur le même axe des ordonnées standardisé.)
Graphique illustrant les valeurs estimées par rapport aux valeurs réelles et graphique illustrant les résidus standardisés

Dans le tracé de droite, chaque point représente un jour, où la prédiction faite par le modèle est sur l’axe des abscisses et la précision de la prédiction est sur l’axe des ordonnées. La distance à partir de la ligne à 0 correspond à l’imprécision de la prédiction pour cette valeur.

Depuis...

Résidu = Valeur observée – Valeur estimée

Des valeurs positives pour le résiduel (sur l’axe des ordonnées) signifient que la prédiction était trop faible, et des valeurs négatives signifient que la prédiction était trop élevée ; 0 signifie que l’hypothèse était parfaitement correcte.

Idéalement, votre tracé des résidus ressemble à cela :
Exemples de tracés de résidus standardisés idéaux

C’est-à-dire :
(1) Ils sont distribués assez symétriquement, et tendent à se regrouper vers le milieu du tracé.
(2) Ils sont regroupés autour du bas de l’axe des ordonnées (p. ex., 0,5 ou 1,5, et non 30 ou 150).
(3) En général, il n’y a pas de motif ou de tendance claire.

Voici quelques tracés résiduels qui ne répondent pas à ces exigences :
Exemples de tracés de résidus standardisés indésirables

Ces tracés ne sont pas distribués verticalement uniformément, ou ils ont une valeur aberrante, ou ils montrent un motif ou une tendance claire.

Si vous pouvez détecter un motif ou une tendance claire dans vos résidus, votre modèle dispose alors d’une marge d’amélioration.

Nous allons ensuite expliquer pourquoi cela arrive et que faire pour améliorer votre modèle.

Est-ce important si mon modèle n’est pas parfait ?

Devriez-vous vous inquiéter que votre modèle ne soit pas parfait, si vos résidus semblent un peu malsains ? C’est à vous de décider.

Si vous publiez votre thèse en physique des particules, vous voudrez probablement vous assurer que votre modèle est aussi précis que possible. Si vous essayez d’effectuer une analyse « vite fait bien fait » du stand de limonade de votre neveu, un modèle imparfait pourrait suffire à répondre à toutes les questions que vous vous posez (p. ex., si la « Température » semble affecter le « Chiffre d’affaires »).

La plupart du temps, mieux vaut un modèle décent qu’aucun modèle. Alors, prenez votre modèle, essayez de l’améliorer, puis décidez si la précision est suffisamment bonne en fonction de vos besoins.

Exemple de tracés résiduels et leurs diagnostics

Si vous n’êtes pas sûr de ce qu’est un résidu, prenez cinq minutes pour lire ce qui précède, puis revenez ici.

Vous trouverez ci-dessous une galerie de tracés résiduels malsains. Votre tracé de résidus peut ressembler à un type spécifique ci-dessous, ou à une combinaison.

S’il ressemble à l’un des éléments ci-dessous, cliquez dessus pour comprendre ce qui se passe et comment corriger le problème.

(Nous utiliserons le « Chiffre d’affaires » d’un stand de limonade par rapport à la « Température » du jour comme exemple d’ensemble de données.)

Axe des ordonnées déséquilibré

Tracé résiduel avec axe des ordonnées déséquilibré

Afficher des détails sur ce tracé et comment le corriger.

Problème

Imaginez que, pour une raison quelconque, votre stand de limonade a généralement un chiffre d’affaires bas, mais que de temps en temps vous avez des jours avec un chiffre d’affaires très élevé, de sorte que le « Chiffre d’affaires » ressemble à cela...

Histogramme du chiffre d’affaires asymétrique pour l’exemple du stand de limonade

…au lieu d’obtenir que quelque chose de plus symétrique et en forme de cloche comme ceci :

Histogramme du chiffre d’affaires symétrique pour l’exemple du stand de limonade

Donc un tracé « Température » comparé au « Chiffre d’affaires » pourrait ressembler à cela, où la plupart des données sont regroupées en bas...

Température en comparaison au Chiffre d’affaires pour les données de limonade asymétriques

La ligne noire représente l’équation du modèle, la prédiction du modèle du lien entre « Température » et « Chiffre d’affaires ». Regardez au-dessus de chaque prédiction faite par la ligne noire pour une « Température » donnée (p. ex., avec une « Température » de 30, le « Chiffre d’affaires » devrait être d’environ 20). Vous pouvez voir que la majorité des points sont sous la ligne (c’est-à-dire que la prédiction était trop élevée), mais quelques points sont très loin au-dessus de la ligne (c’est-à-dire que la prédiction était beaucoup trop faible).

En traduisant ces mêmes données dans les tracés de diagnostic, la plupart des prédictions de l’équation sont un peu trop élevées, et certaines seraient beaucoup trop faibles.

Tracés Valeurs estimées comparés à ceux des Valeurs réelles et des Résidus pour l’exemple du stand de limonade

Conclusions

Cela signifie presque toujours que votre modèle peut être rendu beaucoup plus précis. La plupart du temps, vous constaterez que le modèle était correct sur le plan directionnel, mais assez inexact par rapport à une version améliorée. Il n’est pas rare de résoudre un problème comme celui-ci et, par conséquent, de voir le coefficient de détermination du modèle passer de 0,2 à 0,5 (sur une échelle de 0 à 1).

Comment corriger le modèle ?

  • La solution à cela est presque toujours de transformer (EN) vos données, généralement votre variable de réponse.
  • Il est également possible qu’une variable manque à votre modèle.

Hétéroscédasticité

Tracés de résidus démontrant l’hétéroscédasticité

 

Afficher des détails sur ce tracé et comment le corriger.

Problème

Ces tracés présentent une « hétéroscédasticité », ce qui signifie que les résidus deviennent plus gros lorsque la prédiction passe de petite à grande (ou de grande à petite).

Imaginez que, les jours de froid, le montant du chiffre d’affaires est constant, mais les jours où il fait plus chaud, le chiffre d’affaires est parfois très élevé et parfois très faible.

Vous verriez des tracés comme ceux-ci :

Hétéroscédasticité dans des tracés pour l’exemple du stand de limonade

Conclusions

Cela ne crée pas intrinsèquement un problème, mais cela indique souvent que votre modèle peut être amélioré.

La seule exception ici est que si la taille de votre échantillon est inférieure à 250, et que vous ne pouvez pas résoudre le problème en utilisant les valeurs ci-dessous, vos valeurs p pourraient être un peu plus élevées ou plus basses qu’elles ne devraient l’être, donc une variable qui est juste à la limite de la signification peut se retrouver par erreur du mauvais côté de cette limite. Cependant, vos coefficients de régression (le nombre d’unités « Chiffre d’affaires » change quand la valeur de « Température » monte de un) resteront précis.

Comment corriger le modèle ?

  • La solution la plus fréquemment réussie est de transformer (EN) une variable.
  • Souvent, l’hétéroscédasticité indique qu’une variable est manquante.

Tracés non linéaires

Tracés de résidus non linéaires

 

Afficher des détails sur ce tracé et comment le corriger.

Problème

Imaginez qu’il est difficile de vendre de la limonade les jours de froid, facile de la vendre les jours où il fait chaud et difficile de la vendre les jours où il fait très chaud (peut-être parce que personne ne sort de chez soi les jours où il fait très chaud).

Ce tracé ressemblerait à ceci :

Tracé Température comparé au Chiffre d’affaires où les données apparaissent paraboliques

Le modèle, représenté par la ligne, est très mauvais. Les prédictions seraient complètement fausses, ce qui signifie que votre modèle ne représente pas avec précision le lien entre « Température » et « Chiffre d’affaires ».

En conséquence, les résidus ressembleraient à ceci :

Tracés non linéaires pour les Valeurs estimées comparés à ceux des Valeurs réelles et aux Résidus

Conclusions

Si votre modèle est faux, comme dans l’exemple ci-dessus, vos prédictions auront peu de valeur (et vous remarquerez un coefficient de détermination très faible, p. ex. 0,027 pour le modèle ci-dessus).

D’autres fois, un ajustement légèrement sous-optimal vous donnera quand même un bon aperçu du lien, même s’il n’est pas parfait, comme ci-dessous :

Tracé non linéaire acceptable mais sous-optimal

Ce modèle semble assez précis. Si vous regardez attentivement (ou si vous regardez les résidus), vous pouvez dire qu’un motif se détache : que les points sont sur une courbe à laquelle la ligne ne correspond pas vraiment.

Le tracé « Valeurs estimées » comparé à celui des « Valeurs réelles » semble bon, mais celui des Résidus est non linéaire

Est-ce important ? C’est à vous de décider. Si vous obtenez une compréhension rapide du lien, votre ligne droite représente une estimation assez décente. Si vous utilisez ce modèle à des fins de prédiction et non d’explication, le modèle le plus précis possible prendra probablement compte de cette courbe.

Comment corriger le modèle ?

  • Parfois, des modèles comme celui-ci indiquent qu’une variable doit être transformée (EN).
  • Si le modèle est en fait aussi clair que ces exemples, vous avez probablement besoin de créer un modèle non linéaire (ce n’est pas aussi difficile que cela paraît).
  • Ou, comme toujours, il est possible que le problème soit une variable manquante.

Valeurs aberrantes

Tracés montrant des valeurs aberrantes

 

Afficher des détails sur ce tracé et comment le corriger.

Problème

Et si l’un de vos points de données avait une « Température » de 80 au lieu des valeurs normales situées entre 20 et 30 ? Vos tracés ressembleraient à ceci :

Tracés montrant la Température comparés au Chiffre d’affaires avec un point de Température aberrant

Cette régression a un point de données aberrant sur une variable d’entrée, « Température » (les valeurs aberrantes sur une variable d’entrée sont également appelées « points de levier »).

Que faire si l’un de vos points de données avait un Chiffre d’affaires de 160 USD au lieu d’une valeur entre 20 et 60 USD ? Vos tracés ressembleraient à ceci :

Tracés montrant la Température comparés au Chiffre d’affaires avec un point de Chiffre d’affaires aberrant

Cette régression a un point de données aberrant sur une variable de sortie, « Chiffre d’affaires ».

Conclusions

Stats iQ exécute un type de régression qui n’est généralement pas affecté par les valeurs aberrantes de sortie (comme le jour avec un « Chiffre d’affaires » de 160 USD), mais qui est affecté par les valeurs aberrantes d’entrée (comme une « Température » de 80). Dans le pire des cas, votre modèle peut pivoter pour essayer de se rapprocher de ce point au détriment d’être proche de tous les autres et d’être tout simplement faux, comme ceci :

Tracé des modèles avec et sans point de température aberrant

Vous voudrez probablement avoir un modèle ressemblant à la ligne bleue. La ligne rouge quant à elle représente le modèle que vous pourriez avoir si vous avez cette valeur aberrante de « Temperature » à 80.

Comment corriger le modèle ?

  • Il est possible qu’il s’agisse d’une erreur de mesure ou de saisie de données, et que la valeur aberrante soit simplement incorrecte, auquel cas vous devez la supprimer.
  • Il est possible ces quelques valeurs aberrantes cachent en fait une distribution de la puissance. Pensez à transformer (EN) la variable si l’une de vos variables a une distribution asymétrique (c’est-à-dire qu’elle n’est pas du tout en forme de cloche).
  • S’il s’agit d’une valeur aberrante légitime, vous devez évaluer l’impact de la valeur aberrante.

Points de données importants sur l’axe des ordonnées

Tracés de résidus avec des points de données importants sur l’axe des ordonnées

Afficher des détails sur ce tracé et comment le corriger.

Problème

Imaginez que deux stands de limonade concurrents opèrent à proximité du vôtre. La plupart du temps, un seul est opérationnel, auquel cas votre chiffre d’affaires est constamment bon. Parfois, ni l’un ni l’autre n’est actif et votre chiffre d’affaires s’envole ; à d’autres moments, les deux sont actifs et votre chiffre d’affaires chute.

Le tracé « Chiffre d’affaires » comparé à la « Température » ressemblerait à ceci…

Tracé « Température » comparé au « Chiffre d’affaires » pour des données avec des points de données importants sur l’axe des ordonnées

La première ligne représente les jours où aucun autre stand n’apparaît et la ligne inférieure représente les jours où les deux autres stands sont en activité.

Cela entraînerait ces tracés de résidus :

Tracés « Valeurs réelles » comparés à ceux des « Valeurs estimées » et des Résidus pour des points de données importants sur l’axe des ordonnées

C’est-à-dire qu’il y a un certain nombre de points de données des deux côtés de 0 ayant des résidus de 10 ou plus, c’est-à-dire que le modèle n’était pas du tout correct.

Maintenant, si vous aviez collecté des données chaque jour pour une variable appelée « Nombre de stands de limonade actifs », vous pourriez ajouter cette variable à votre modèle et ce problème serait corrigé. Cependant, vous n’avez pas souvent les données dont vous avez besoin (ou vous ne savez même pas de quel type de variable vous avez besoin).

Conclusions

Votre modèle n’est pas inutile, mais il n’est certainement pas aussi bon que si vous aviez toutes les variables dont vous aviez besoin. Vous pouvez toujours l’utiliser et vous vous dire quelque chose comme : « Ce modèle est assez précis la plupart du temps, mais il arrive qu’il ne soit pas du tout correct ». Est-ce utile ? Probablement, mais c’est à vous d’en décider et cela dépend des décisions que vous essayez de prendre en fonction de votre modèle.

Comment corriger le modèle ?

  • Même si cette approche ne fonctionnait pas dans l’exemple spécifique ci-dessus, il est presque toujours utile de voir s’il est possible de transformer (EN) utilement une variable.
  • Si cela ne fonctionne pas, vous devrez probablement résoudre votre problème de variable manquante.

Axe des abscisses déséquilibré

Tracés des Résidus pour des données où l’axe des abscisses est déséquilibré

 

Afficher des détails sur ce tracé et comment le corriger.

Problème

Imaginez que le « Chiffre d’affaires » est généré par la « Circulation piétonne » à proximité, en plus de la « Température » ou à la place de celle-ci. Imaginez que, pour une raison quelconque, votre stand de limonade a généralement un chiffre d’affaires bas, mais que de temps en temps vous avez des jours avec un chiffre d’affaires extrêmement élevé, de sorte que votre chiffre d’affaires ressemble à cela...

Histogramme de la circulation piétonne asymétrique vers la droite

…au lieu d’obtenir que quelque chose de plus symétrique et en forme de cloche comme ceci :

Histogramme de température symétrique

Par conséquent, le tracé « Circulation piétonne » comparé au « Chiffre d’affaires » ressemblerait à cela, la plupart des données étant regroupées sur le côté gauche :

Tracé de la Circulation piétonne comparé au Chiffre d’affaires

La ligne noire représente l’équation du modèle, la prédiction du modèle du lien entre « Circulation piétonne » et le « Chiffre d’affaires ». Vous pouvez voir que le modèle ne fait pas vraiment la différence entre une « Circulation piétonne » de 0 et de 100 ou 1 000 ; pour chacune de ces valeurs, il estimerait un chiffre d’affaires proche de 53 USD.

Voici les mêmes données traduites en tracés de diagnostic :

Tracés « Valeurs estimées » comparés à ceux des « Valeurs réelles » et des « Résidus » pour le modèle de Circulation piétonne

Conclusions

Parfois, votre modèle n’a en fait pas de problème. Dans l’exemple ci-dessus, il est assez clair qu’il ne s’agit pas d’un bon modèle, mais parfois le tracé des résidus est déséquilibré et le modèle est assez bon.

Les seules façons de savoir si le modèle est bon sont : a) de tenter de transformer vos données et de voir si vous pouvez améliorer le modèle et b) d’examiner le tracé « Valeurs estimées » comparé à celui des « Valeurs réelles » et de voir si votre prédiction est complètement fausse pour beaucoup de points de données, comme dans l’exemple ci-dessus (mais contrairement à l’exemple ci-dessous).

Tracé « Valeurs estimées » comparé à celui des « Valeurs réelles » acceptable avec un axe des abscisses déséquilibré

Bien qu’il n’y ait pas de règle explicite démontrant qu’un tracé des résidus ne peut pas être déséquilibré et quand même précis (ce modèle est en effet assez précis), bien souvent, le fait est qu’un tracé des résidus avec un axe des abscisses déséquilibré signifie que votre modèle peut être rendu significativement plus précis. La plupart du temps, vous constaterez que le modèle était correct sur le plan directionnel, mais assez inexact par rapport à une version améliorée. Il n’est pas rare de résoudre un problème comme celui-ci et, par conséquent, de voir le coefficient de détermination du modèle passer de 0,2 à 0,5 (sur une échelle de 0 à 1).

Comment corriger le modèle ?

  • La solution à ce problème est presque toujours de transformer vos données, généralement une variable explicative. (Notez que l’exemple ci-dessous fera référence à la transformation de votre variable de réponse, mais le même processus sera utile ici.)
  • Il est également possible qu’une variable manque à votre modèle.

Améliorer votre modèle : Évaluer l’impact d’une valeur aberrante

Supposons que vous avez un point de données aberrant légitime, et non une erreur de mesure ou de données. Pour décider de la marche à suivre, vous devez évaluer l’impact du point de données sur la régression.

La manière la plus simple de procéder est de noter les coefficients de votre modèle actuel, puis de filtrer ce point de données à partir de la régression. Si le modèle ne change pas beaucoup, alors vous n’avez pas vraiment à vous inquiéter.

Si cela modifie le modèle de manière significative, examinez le modèle (en particulier le tracé « Valeurs réelles » comparé à celui des « Valeurs estimées ») et décidez lequel vous semble le plus adapté. Il est acceptable d’éliminer la valeur aberrante du moment que vous pouvez théoriquement justifier, par exemple : « Dans ce cas, nous ne sommes pas intéressés par les valeurs aberrantes, elles ne sont pas importantes. » ou « C’est le jour où oncle Jerry est venu acheter de la limonade et m’a donné 100 USD ; ce n’est pas prévisible et cela ne vaut pas la peine d’être inclus dans le modèle. »

Améliorer votre modèle : Transformer des variables

Aperçu

La manière la plus courante d’améliorer un modèle consiste à transformer une ou plusieurs variables, généralement à l’aide d’une transformation logarithmique ou « log ».

La transformation d’une variable modifie la forme de sa distribution. Généralement, le meilleur endroit pour commencer est une variable ayant une distribution asymétrique, par opposition à une distribution plus symétrique ou en forme de cloche. Il vous faut trouver une variable comme celle-ci à transformer :

Histogramme du chiffre d’affaires, asymétrique vers la droite

En général, les modèles de régression fonctionnent mieux avec des courbes plus symétriques, en forme de cloche. Essayez différents types de transformations jusqu’à ce que vous atteigniez celui qui est le plus proche de cette forme. Il n’est souvent pas possible d’obtenir cette forme, mais l’objectif est de s’en rapprocher. Imaginons donc que vous preniez la racine carrée du « Chiffre d’affaires », afin d’obtenir une forme plus symétrique, et que votre distribution ressemble à ceci :
Histogramme de la racine carrée du Chiffre d’affaires

C’est bien, mais c’est encore un peu asymétrique. Essayons plutôt de prendre le Log de « Chiffre d’affaires », qui donne cette forme :
Histogramme du Log du Chiffre d’affaires

C’est bien et symétrique. Vous obtiendrez probablement un meilleur modèle de régression avec log(« Chiffre d’affaires ») au lieu de simplement « Chiffre d’affaires ». En effet, voici comment votre équation, vos résidus et votre coefficient de détermination pourraient changer :
Tracés des résidus des données non transformées et transformées

Stats iQ montre une petite version de la distribution de la variable en ligne avec l’équation de régression :Stats iQ affiche un petit histogramme de distribution

Sélectionnez le bouton transformation fx à gauche de la variable…

Image illustrant la sélection de l’option de transformation à gauche du nom de la variable

…Sélectionnez ensuite une transformation, le plus souvent log(x)

Image illustrant la sélection de la transformation dans la liste déroulante

...Examinez ensuite l’histogramme pour voir s’il est plus centré, comme celui-ci après la transformation :
L’histogramme de transformation semble plus symétrique

Après avoir transformé une variable, notez comment sa distribution, le coefficient de détermination de la régression et les schémas du tracé de résidus changent. Si ceux-ci s’améliorent (en particulier le coefficient de détermination et les résidus), il est probablement préférable de conserver la transformation.

Si une transformation est nécessaire, vous devez commencer par une transformation « log » car les résultats de votre modèle seront toujours faciles à comprendre. Cependant, remarquez que vous rencontrerez des problèmes si les données que vous essayez de transformer incluent des zéros ou des valeurs négatives. Pour savoir pourquoi il est si utile d’utiliser Log, si vous vous souhaitez transformer des chiffres non positifs ou si vous voulez simplement mieux comprendre ce qui se passe lorsque vous transformez des données, lisez les détails ci-dessous.

Détails

Si vous prenez le log10() d’un nombre, vous dites « 10 à quelle puissance me donne ce nombre. » Par exemple, voici un tableau simple de quatre points de données, y compris « Chiffre d’affaires » et Log(« Chiffre d’affaires ») :

Température Chiffre d’affaires Log(Chiffre d’affaires)
20 100 2
30 1 000 3
40 10 000 4
45 31 623 4,5

 

Remarquez que si nous traçons la « Température » comparée au « Chiffre d’affaires », et la « Température » comparée à Log(« Chiffre d’affaires »), ce dernier modèle s’adapte beaucoup mieux.
Le tracé du modèle transformé est plus adapté

Ce qui est intéressant à propos de cette transformation, c’est que votre régression n’est plus linéaire. Lorsque la « Température » est passée de 20 à 30, le « Chiffre d’affaires » est passé de 10 à 100, un écart de 90 unités. Ensuite, lorsque la « Température » est passée de 30 à 40, le « Chiffre d’affaires » est passé de 100 à 1 000, un écart beaucoup plus important.

Si vous avez utilisé le log de votre variable de réponse, l’augmentation d’une unité de la « Température » ne signifie plus une augmentation de X unités du « Chiffre d’affaires ». Il s’agit maintenant d’une augmentation du chiffre d’affaires de X pour cent. Dans ce cas, une augmentation de dix unités de « Température » est associée à une augmentation de 1 000 % de Y, c’est-à-dire qu’une augmentation d’une unité de la « Température » est associée à une augmentation de 26 % du « Chiffre d’affaires ».

Notez également que vous ne pouvez pas utiliser le log de 0 ou d’un nombre négatif (il n’y a pas de X où 10X = 0 ou 10X = -5), donc si vous effectuez une transformation log, vous perdrez ces points de données de la régression. Il existe 4 façons courantes de gérer la situation :

  1. Prenez une racine carrée, ou une racine cube. Ces valeurs ne modifieront pas la forme de la courbe aussi radicalement qu’en utilisant un log, mais elles permettent aux zéros de rester dans la régression.
  2. S’il n’y a pas trop de lignes de données dont la valeur est zéro, et que ces lignes ne sont théoriquement pas importantes, vous pouvez continuer avec le log et perdre quelques lignes de votre régression.
  3. Au lieu d’utiliser log(y), utilisez log(y+1), de sorte que les zéros deviennent des uns et peuvent ensuite être conservés dans la régression. Cette technique biaise légèrement votre modèle et est quelque peu mal vue, mais dans la pratique, ses effets secondaires négatifs sont généralement assez mineurs.

Améliorer votre modèle : Variables manquantes

La raison la plus courante pour laquelle un modèle ne correspond pas est que toutes les variables appropriées ne sont pas incluses. Ce problème particulier a beaucoup de solutions possibles.

Ajouter une nouvelle variable

Parfois, l’ajout d’une autre variable suffit à corriger le modèle. Par exemple, si le trafic « Chiffre d’affaires » du stand de limonade était beaucoup plus important le week-end que les jours de la semaine, votre tracé « Valeurs estimées » comparé à celui des « Valeurs réelles » pourrait ressembler à ce qui suit (coefficient de détermination de 0,053) puisque le modèle ne prend que la moyenne des jours de week-end et des jours de la semaine :
Tracé des données pour lesquelles une variable manque

Si le modèle inclut une variable appelée « Week-end », alors le tracé « Valeurs estimées » comparé à celui des « Valeurs réelles » pourrait ressembler à cela (coefficient de détermination de 0,974) :
Tracé des données avec une deuxième variable ajoutée

Le modèle effectue des prédictions beaucoup plus précises, car il est capable de prendre en compte si un jour est un jour de la semaine ou du week-end.

Remarquez que vous devrez parfois créer des variables dans Stats iQ pour améliorer votre modèle de cette manière. Par exemple, vous avez peut-être une variable « Date » (avec des valeurs comme « 10/26/2014 ») et il vous faudra peut-être créer une nouvelle variable appelée « Jour de la semaine » (c.-à-d. dimanche) ou Week-end (c.-à-d. week-end).

Variable omise non disponible

Malheureusement, c’est rarement aussi facile. Bien souvent, la variable pertinente n’est pas disponible parce que vous ne savez pas de quoi il s’agit ou qu’elle était difficile à collecter. Peut-être que le problème ne venait pas du jour de la semaine, mais plutôt du « Nombre de concurrents dans la zone » que vous n’avez pas pu collecter à l’époque.

Si la variable dont vous avez besoin n’est pas disponible, ou si vous ne savez même pas quelle variable est manquante, alors votre modèle ne peut pas vraiment être amélioré et vous devez l’évaluer et décider dans quelle mesure vous êtes satisfait (s’il est utile ou non, même défectueux).

Interactions entre variables

Peut-être que le stand de limonade vend toujours à 100 % de sa capacité le week-end, et donc le « Chiffre d’affaires » est élevé, quelle que soit la « Température ». Mais en semaine, le stand de limonade est beaucoup moins occupé, alors la « Température » est un moteur important du « Chiffre d’affaires ». Si vous avez exécuté une régression qui incluait les variables « Week-end » et « Température », vous pouvez voir un tracé « Valeurs estimées » comparé à celui des « Valeurs réelles » comme celui-ci, où la ligne en haut correspond aux jours du week-end.
Tracé d’un modèle à deux variables sans interaction

Nous dirions qu’il y a une interaction entre les valeurs « Week-end » et « Température » ; l’effet de l’une sur « Chiffre d’affaires » est différent en fonction de la valeur de l’autre. Si nous créons une variable d’interaction, nous obtenons un modèle bien meilleur, qui fournit un tracé « Valeurs estimées » comparé à celui des « Valeurs réelles » ressemblant à ceci :
Tracé d’un modèle à deux variables avec interaction ajoutée

Améliorer votre modèle : Corriger la non-linéarité

Imaginons que vous ayez un lien qui ressemble à ceci :

Tracé utilisant des données non linéaires et un modèle linéaire

Vous remarquerez peut-être que la forme est celle d’une parabole, dont vous vous souvenez peut-être qu’elle est généralement associée à des formules qui ressemblent à ceci :

y = x2 + x + 1

Par défaut, la régression utilise un modèle linéaire qui ressemble à ceci :

y = x + 1

En fait, la ligne du graphique ci-dessus a cette formule :

y = 1,7x + 51

Mais ça ne marche pas du tout. Donc, si nous ajoutons un terme x2, notre modèle a de meilleures chances d’avoir une courbe ajustée. En fait, cela crée cela :

Tracé utilisant des données non linéaires et un modèle non linéaire

La formule pour cette courbe est :

y = -2x2 +111x – 1 408

Cela signifie que nos tracés de diagnostic passent de ceci…

Tracés diagnostiques avec modèle linéaire

à cela :

Tracés diagnostiques avec modèle non linéaire

Notez qu’il s’agit de tracés de diagnostic sains, même si les données semblent être déséquilibrées sur le côté droit.

L’approche ci-dessus peut être étendue à d’autres types de formes, en particulier une courbe en forme de S, en ajoutant un terme x3. C’est relativement peu fréquent, cependant.

Quelques mises en garde :

  • D’une manière générale, si vous avez un terme x2 en raison d’un modèle non linéaire dans vos données, vous voulez avoir un terme bon-vieux-x-pas-x2. Vous constaterez peut-être que votre modèle est parfaitement bon sans ce terme, mais vous devriez certainement essayer les deux pour commencer.
  • L’équation de régression peut être difficile à comprendre. Dans l’équation linéaire au début de cette section, pour chaque unité supplémentaire de « Température », le « Chiffre d’affaires » augmentait de 1,7 unité. Lorsque vous avez à la fois x2et x dans l’équation, il n’est pas facile de dire « Quand la Temperature monte d’un degré, voici ce qui se passe ». Parfois, pour cette raison, il est plus facile d’utiliser simplement une équation linéaire, en supposant que cette équation fonctionne suffisamment bien.