Passer au contenu principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Guide convivial de la régression linéaire


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Qu’est-ce que la régression ?

La régression estime une formule mathématique qui relie une ou plusieurs variables d’entrée à une variable de sortie.

Par exemple, supposons que vous gériez un stand de limonade et que vous soyez intéressé par ce qui génère du chiffre d’affaires. Vos données incluent le chiffre d’affaires de chaque jour, la température élevée, le nombre d’enfants qui ont marché, le nombre d’adultes qui ont marché, ce que vous avez utilisé ce jour-là, et un chiffre d’affaires du concurrent à proximité.

Chiffre d’affaires Température (Celsius) Minutes d’arrêt Nombre d’enfants à pied Nombre d’adultes à pied Signalisation Chiffre d’affaires du concurrent
44 USD 28,2 30 43 380 Peints à la main 20 $
23 USD 21,4 42 28 207 LED 30 USD
43 USD 32,9 14 43 364 Peints à la main 34 $
30 USD 24,0 24 18 103 LED 15 $
etc. etc. etc. etc. etc. etc. etc.

 

Vous pensez que “Température” (une variable d’entrée ou explicative) peut avoir un impact sur “Chiffre d’affaires” (une variable de sortie ou de réponse). Lorsque vous utilisez la régression pour analyser cette relation, cela peut donner la formule suivante :

Chiffre d’affaires = 2,71 * Température   –   35

Cette formule est utile pour deux raisons.

Tout d’abord, il vous permet de comprendre une relation : des jours plus chauds conduisent à plus de “Revenu”. En particulier, le 2,71 avant “Température” (appelé le coefficient) signifie que pour chaque degré “Température” monte, en moyenne il y aura 2,71$ de plus “Revenu”. Cette intuition peut vous amener à décider de ne pas vendre de limonade les jours froids.

Ensuite, et en relation, il peut également vous aider à faire des prédictions spécifiques. Si la “Température” est de 24, vous pourriez estimer cela depuis…

Chiffre d’affaires = 2,71 * Température   –   35
Chiffre d’affaires = 2,71 * 24   –   35
Chiffre d’affaires = 30

…vous aurez environ 30$ en « Chiffre d’affaires ». Cela peut être utile pour savoir si vous serez en mesure d’effectuer un paiement ce jour-là, en supposant que vous êtes certain que votre modèle est précis.

Nous allons maintenant suivre le processus de création de cette équation de régression.

Préparation à la création d’un modèle de régression

1. Réfléchissez à la théorie de votre régression

Une fois que vous avez sélectionné une variable de réponse, « Chiffre d’affaires » émet l‘hypothèse selon laquelle différentes entrées peuvent y être liées. Par exemple, vous pourriez penser qu’une « température » plus élevée entraînera une augmentation du « chiffre d’affaires », vous n’êtes peut-être pas sûr de l’impact de différentes signatures sur le « chiffre d’affaires », et vous pourriez croire que les « ventes du concurrent » sont affectées par la « température » mais n’ont aucun impact sur votre stand de limonade.
Plan de relation entre Signage, Temp, Chiffre daffaires et Concurrents

L’objectif de la régression est généralement de comprendre la relation entre plusieurs entrées et une sortie, donc dans ce cas vous décideriez probablement de créer un modèle expliquant “Chiffre d’affaires” avec “Température” et “Signalisation” (également appelé “prédiction du chiffre d’affaires de la température et du signal, même si vous êtes plus intéressé par l’explication que par la prédiction réelle).

Vous n’incluez probablement pas les « ventes du concurrent » dans votre régression. Il est probablement corrélé avec “Chiffre d’affaires”, mais il ne vient pas avant dans la chaîne causale, de sorte que l’inclusion de ce produit risque de perturber votre modèle.

2. « Décrire » toutes les variables qui pourraient être utiles pour votre modèle

Commencez par décrire la variable de réponse, en l’occurrence “Chiffre d’affaires”, et d’en avoir une bonne impression. Procédez de même pour vos variables explicatives.

Note qui ont une forme comme celle-ci…
Histogramme de variable à droite

… où la plupart des données se trouvent dans les premières classes de l’histogramme. Ces variables nécessiteront une attention particulière ultérieurement.

3. « Relier » toutes les variables explicatives possibles à la variable de réponse

Stats iQ trie les résultats en fonction de la force de la relation statistique. Jetez un œil aux résultats, en notant les variables liées au “Chiffre d’affaires” et comment.

Si vous avez déjà une bonne idée des variables qui doivent théoriquement piloter l’édition (par exemple, à partir de documents universitaires précédents), vous devez ignorer cette étape. Mais si votre analyse est un peu plus exploratoire (comme une enquête client), il s’agit d’une étape utile et importante.

4. Commencez à créer la régression.

La construction d’un modèle de régression est un processus itératif. Vous exécuterez les trois étapes suivantes autant de fois que nécessaire.

Les trois étapes de la création d’un modèle de régression

Étape 1 : ajouter ou soustraire une variable

Un par un, commencez à ajouter dans les variables que vos analyses précédentes indiquées étaient liées au “Revenu des ventes” (ou ajoutez en variables que vous avez une raison théorique d’ajouter). Parvenir un par un n’est pas absolument nécessaire, mais cela facilite l’identification et la résolution des problèmes au fur et à mesure et vous aide à vous familiariser avec le modèle.

Supposons que vous commenciez par prédire “Chiffre d’affaires” avec “Température”. Vous trouvez une relation forte, vous évaluez le modèle et vous le trouvez satisfaisant (plus de détails en une minute).

Chiffre d’affaires = 2,71 * Température   –   35

Vous ajoutez ensuite dans “Nombre d’enfants qui ont marché” et maintenant votre modèle de régression comporte deux termes, qui sont tous deux des prédicteurs statistiquement significatifs. Comme ceci :

Chiffre d’affaires = 2,5 * Température   +   0,3 * NumberOfChildrenWhoWalkedBy   –   12

Ensuite, vous ajoutez “Nombre d’adultes qui ont marché” et les résultats du modèle montrent maintenant que “Nombre d’adultes” est statistiquement significatif dans le modèle, mais “Nombre d’enfants” ne l’est plus. Généralement, vous supprimez “Nombre d’enfants” du modèle. Voici à présent :

Chiffre d’affaires = 2,6 * Température   +   0,4 * NumberOfAdultsWhoWalkedBy   –   14

Cela signifie que « le nombre d’adultes » est le meilleur prédicteur du « chiffre d’affaires », c’est-à-dire que si vous savez combien d’adultes viennent, savoir combien d’enfants arrivent n’ajoute pas de nouvelles informations, cela ne vous aide pas à prévoir les ventes.

Vous vous souvenez peut-être que les enfants n’achètent jamais votre limonade, il est donc logique que cette variable n’appartienne pas au modèle.

Mais pourquoi était-ce statistiquement significatif dans le premier modèle ? Probablement parce que “Nombre d’enfants” est corrélé avec “Nombre d’adultes“, et comme “Nombre d’adultes” n’était pas encore dans le modèle, “Nombre d’enfants” agissait comme une approximation approximative du “Nombre d’adultes”.

Interpréter les résultats de régression prend beaucoup de jugement, et simplement parce qu’une variable est statistiquement significative ne signifie pas qu’elle est réellement causale. Mais en ajoutant et soustrayant soigneusement des variables, en notant comment le modèle change et en pensant toujours à la théorie sous-jacente à votre modèle, vous pouvez déchirer les relations intéressantes dans vos données.

Étape 2 : Évaluer le modèle

Chaque fois que vous ajoutez ou soustrayez une variable, vous devez évaluer la précision du modèle en observant son coefficient de détermination (R2), son AICR et ses tracés résiduels. Chaque fois que vous modifiez le modèle, comparez les nouveaux tracés R², AICR et résiduels aux anciens afin de déterminer si le modèle s’est amélioré ou non.

R au carré (R2)

La métrique numérique permettant de quantifier la précision des prévisions du modèle est connue sous le nom de coefficient de détermination (R²), qui se situe entre zéro et un. Un zéro signifie que le modèle n’a pas de valeur prédictive et qu’un seul signifie que le modèle prédit parfaitement tout.

Par exemple, le modèle à gauche est plus précis que celui de droite ; c’est-à-dire, si vous connaissez “Température”, vous avez une assez bonne supposition quant à ce que “Revenu” sera à gauche, mais pas vraiment à droite.
Courbes de valeurs de coefficient de détermination (R²) élevées et faibles pour la température par rapport au chiffre daffaires

Il n’existe pas de définition fixe d’un « bon » coefficient de détermination. Dans certaines options, il peut être intéressant de voir n’importe quel effet, tandis que dans d’autres, votre modèle peut être inutile, sauf s’il est très précis.

Chaque fois que vous ajoutez une variable, le coefficient de détermination (R²) augmente. L’objectif n’est donc pas d’atteindre le coefficient de détermination le plus élevé possible. Vous voulez plutôt équilibrer la précision du modèle (R²) avec sa complexité (en général, le nombre de variables qu’il contient).

AICR

AICR est une métrique qui équilibre la précision avec la complexité – une précision accrue conduit à de meilleurs scores, une complexité supplémentaire (plus de variables) conduit à des scores moins bons. Le modèle avec l’AICR inférieur est meilleur.

Notez que la métrique AICR n’est utile que pour comparer les AICR de modèles qui ont le même nombre de lignes de données et la même variable de sortie.

Intervalles de prédiction

Une autre façon utile d’avoir une idée de la précision de votre modèle est de coller les valeurs d’échantillon dans votre formule et de voir l’intervalle de prédiction que Stats iQ calcule. Par exemple, si vous collez le nombre 30 dans la formule, Stats iQ vous dira que la valeur prédite est 45,5, mais que l’intervalle de confiance à 95 % est compris entre 36,4 et 54,5, ce qui signifie que vous pourriez être sûr à 95 % que si demain il s’avérait être 30 degrés, vous obtiendriez entre 36,40 $ et 54,50 $ dans « Chiffre d’affaires ». Vous pourriez imaginer un modèle plus précis où l’intervalle de prédiction était une bande serrée comme 44$ à 48$, ou une moins précise où l’intervalle était large, comme 20 à 72$.
Équation pour le calcul des intervalles de prédiction

Cette approche n’est utile que lorsque vos parcelles résiduelles semblent saines (voir ci-dessous), sinon elles seront inexactes.

Résidus

Les résidus sont le principal outil de diagnostic pour évaluer et améliorer la régression, il existe donc toute une section distincte sur l’interprétation des résidus afin d’améliorer votre modèle. Vous allez apprendre ou rafraîchir votre mémoire sur les résidus, comment les utiliser pour évaluer et améliorer le modèle, et comment réfléchir à la précision dont vous avez besoin pour votre modèle.

Nous vous recommandons de le lire intégralement, car il couvrira tout le reste dont vous avez besoin pour produire un modèle super. Mais vous pouvez toujours y revenir, bien sûr.

Étape 3 : Modifiez le modèle en conséquence

Si votre évaluation du modèle a révélé qu’il était satisfaisant, soit vous avez terminé, soit vous pouvez revenir à la phase 1 et saisir plus de variables.

Si votre évaluation révèle que le modèle manque, vous utiliserez les alertes de Stats iQ et la section Diagnostic résiduel pour résoudre les problèmes.

Lorsque vous modifiez le modèle, notez continuellement les changements de R², AICR et diagnostics résiduels, et décidez si les modifications que vous apportez aident ou nuisent à votre modèle.

FAQ

De nombreuses pages de ce site ont été traduites de l'anglais en traduction automatique. Chez Qualtrics, nous avons accompli notre devoir de diligence pour trouver les meilleures traductions automatiques possibles. Toutefois, le résultat ne peut pas être constamment parfait. Le texte original en anglais est considéré comme la version officielle, et toute discordance entre l'original et les traductions automatiques ne pourra être considérée comme juridiquement contraignante.