Cómo interpretar diagramas residuales para mejorar su regresión

Suite

Customer Experience Employee Experience Strategy & Research

Producto

Qualtrics

Contenidos de la página

Al ejecutar una regresión, Stats iQ calcula y traza automáticamente los valores residuales para ayudarle a comprender y mejorar el modelo de regresión. Lea a continuación para conozca todo lo que necesita saber sobre la interpretación de residuos (incluidas definiciones y ejemplos).

Observaciones, predicciones y valores residuales

Para demostrar cómo interpretar los valores residuales, usaremos un conjunto de datos del stand de limonada, donde cada fila representa la “Temperatura” y los “Ingresos” del día.

Temperatura (Celsius)	Ingresos
28,2	$ 44
21,4	$ 23
32,9	$ 43
24,0	$ 30
etc.	etc.

La ecuación de regresión que describe la relación entre “Temperatura” e “Ingresos” es:

Ingresos = 2,7 * Temperatura – 35

Supongamos que un día en el puesto de limonadas hizo 30,7° y los ingresos fueron de $ 50. Ese 50 es su resultado observado o real , el valor real.

Entonces, si insertamos 30,7 como valor para “Temperatura”…

Ingresos = 2,7 * 30,7 – 35
Ingresos = 48

…obtenemos $ 48. Ese es el valor previsto para ese día, también conocido como el valor para “Ingresos”, la ecuación de regresión lo habría predicho en base a la “Temperatura”.

Su modelo no siempre es perfecto bien, por supuesto. En este caso, la predicción falla de 2; esa diferencia, 2, se llama residual. El valor residual es el resto que queda cuando se resta el valor previsto del valor observado.

Residual = observado – previsto

Ahora puede imaginar que cada fila de datos tiene un valor previsto y también un valor residual.

Temperatura (Celsius)	Ingresos (observado)	Ingresos (previsto)	Residual (observado – previsto)
28,2	$ 44	$ 41	$ 3
21,4	$ 23	$ 23	$ 0
32,9	$ 43	$ 54	11
24,0	$ 30	$ 29	$ 1
etc.	etc.	etc.	etc.

Vamos a utilizar los valores observados, previstos y residuales para evaluar y mejorar el modelo.

Comprensión de la precisión con Observados vs. Previstos

En un modelo simple como este, con solo dos variables, puede obtener una idea de cuán preciso es con solo relacionar la “Temperatura” con los “Ingresos”. Aquí está la misma ejecución de regresión en dos puestos de limonada diferentes, una donde el modelo es muy preciso, una en la que el modelo no lo es:

Gráfico de predicciones de modelo precisas frente a imprecisas

Está claro que para ambos puestos de limonada, con una “Temperatura” más alta tienen mayores “Ingresos”. Pero a una determinada “Temperatura”, podría ayudarnos a pronosticar los “Ingresos” del puesto de la izquierda con mayor precisión respecto a los de la derecha, lo que significa que el modelo es mucho más preciso.

Pero la mayoría de los modelos tienen más de una variable explicativa y no es práctico representar más variables en ese tipo de gráfico. Por lo tanto, vamos a representar los valores previstos frente a los valores observados para estos mismos conjuntos de datos.

Gráficos de valores previstos frente a valores reales para modelos precisos e imprecisos

De nuevo, el modelo para el gráfico de la izquierda es muy preciso; hay una fuerte correlación entre las predicciones del modelo y sus resultados reales. Por el contrario, el modelo para el gráfico de la derecha no funciona porque las predicciones no son muy buenas.

Tenga en cuenta que estos gráficos analizan la “Temperatura”frente a los “Ingresos” que se encuentran arriba, pero el eje X predice los “Ingresos” en lugar de la “Temperatura”. Ese resultado es común cuando la ecuación de regresión solo tiene una variable explicativa. Sin embargo, tendrá varias variables explicativas con mayor frecuencia, y los gráficos tendrán un aspecto muy diferente respecto al diagrama de una variable explicativa vs. “Ingresos”.

Examinar datos Previstos vs. Residual (“El diagrama residual”)

A pesar de que la forma más útil de trazar los valores residuales es con los valores previstos en el eje X y los valores residuales en el eje Y, no siempre es así.

(Stats iQ presenta los residuos como residuos estandarizados, lo que significa que cada diagrama residual que observa con cualquier modelo está en el mismo eje Y estandarizado).

Gráfico de valores previstos vs. valores reales y gráfico de valores residuales estandarizados

En el diagrama de la derecha, cada punto es un día, donde la predicción realizada por el modelo está en el eje X y la precisión de la predicción está en el eje Y. La distancia desde la línea en 0 es lo mala que era la predicción para ese valor.

Dado que…

Residual = observado – previsto

…los valores positivos para el residual (en el eje Y) significan que la predicción era demasiado baja, y los valores negativos significan que la predicción era demasiado alta; 0 significa que la estimación era exactamente correcta.

Idealmente, el diagrama de los residuos tiene el siguiente aspecto:

Ejemplos de diagramas residuales estandarizados ideales

Es decir,
(1) se distribuyen de manera bastante simétrica, tendiendo a agruparse hacia la mitad del diagrama.
(2) se agrupan alrededor de los dígitos individuales inferiores del eje Y (por ejemplo, 0,5 o 1,5, no 30 o 150).
(3) en general, no hay patrones claros.

Estos son algunos diagramas residuales que no cumplen con esos requisitos:

Ejemplos de diagramas residuales estandarizados no deseados

Estos diagramas no se distribuyen uniformemente verticalmente, tienen un valor atípico o tienen una forma clara para ellos.

Si puede detectar un patrón o una tendencia claros en sus residuos, su modelo tendrá un margen de mejora.

A breve, analizaremos el por qué y qué hacer al respecto.

Diagrama residual Q-Q normal:

Haga clic en Mostrar diagrama residual Q-Q normal para visualizar un diagrama Q-Q que evalúa la distorsión de datos y el ajuste de modelo. Este gráfico muestra los valores residuales estandarizados en el eje y y los cuantiles teóricos en el eje X.

Muestra una distribución QQ para el ajuste de modelo disponible en las regresiones lineales de Stats iQ.

Los datos que se alinean estrechamente con la línea de puntos indican una distribución normal. Si los puntos se sesgan drásticamente desde la línea, podría considerar ajustar su modelo añadiendo o eliminando otras variables en el modelo de regresión.

¿Qué tan importante es que mi modelo sea perfecto?

¿Cuánto le debería preocupar que su modelo no sea perfecto, si sus residuos parecen un poco insaludables? Depende de usted.

Si está presentandop su tesis en física de partículas, probablemente quiera asegurarse de que su modelo sea lo más preciso posible humanamente. Si está tratando de realizar un análisis rápido y básico del puesto de limonada de su sobrino, un modelo menos perfecto podría ser lo suficientemente bueno para responder cualquier pregunta que tenga (por ejemplo, si la “Temperatura” parece afectar a los “Ingresos”).

La mayoría de las veces un modelo decente es mejor que ninguno. Por lo tanto, tome su modelo, intente mejorarlo y, luego, decida si la precisión es lo suficientemente buena como para que sea útil para sus objetivos.

Ejemplos de diagramas residuales y sus diagnósticos

Si tiene la seguridad de qué es un residuo, tómese cinco minutos para leer lo anterior y luego regrese aquí.

Debajo hay una galería de diagramas residuales poco saludables. Su residual puede parecerse a un tipo específico de abajo, o alguna combinación.

Si el suyo se parece a una de las siguientes opciones, haga clic en el valor residual para comprender lo que está sucediendo y aprender a solucionarlo.

(A lo largo de todo el proceso usaremos los “Ingresos” de un puesto de limonada frente a la “Temperatura” del día como conjunto de datos de ejemplo).

Eje Y desequilibrado

Muestra detalles sobre este diagrama y cómo solucionarlo.

Problema

Imagine que, por la razón que sea, su puesto de limonada suele tener bajos ingresos, pero de vez en cuando obtiene unos días de ingresos muy altos, de modo que “Ingresos” se ve de esta manera…

Histograma sesgado de ingresos para el ejemplo del puesto de limonada

…en vez de algo más simétrico y con forma de campana como este:

Histograma simétrico de ingresos para el ejemplo del puesto de limonada

Así que “Temperatura” vs. “Ingresos” podría ser así, con la mayoría de los datos agrupados en la parte inferior…

Temperatura vs. Ingresos para datos sesgados del puesto de limonada

La línea negra representa la ecuación del modelo, la predicción del modelo de la relación entre “Temperatura” e “Ingresos”. Mire en la parte superior de cada predicción hecha por la línea negra para una cierta “Temperatura” dada (por ejemplo, con una “Temperatura” de 30, se preveen “Ingresos” de 20). Puede ver que la mayoría de los puntos están por debajo de la línea (es decir, la predicción era demasiado alta), pero algunos puntos están muy por encima de la línea (es decir, la predicción era demasiado baja).

Traduciendo esos mismos datos a los diagramas de diagnóstico, la mayoría de las predicciones de la ecuación son demasiado altas, y entonces algunas serían muy bajas.

Diagramas de Previsto vs. Efectivo y Residual para el ejemplo de la limonada

Implicaciones

Esto casi siempre significa que su modelo puede ser mucho más preciso. La mayoría de las veces verá que el modelo era direccionalmente correcto, pero bastante impreciso en relación con una versión mejorada. No es raro solucionar un problema como este y, en consecuencia, ver el salto del cuadrado R del modelo de 0,2 a 0,5 (en una escala de 0 a 1).

Cómo arreglarlo

La solución a esto es casi siempre transformar sus datos, normalmente la variable de respuesta.
También es posible que su modelo carezca de una variable.