Saltar al contenido principal
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Guía fácil de usar para la regresión logística


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


¿Qué es la regresión logística?

La regresión logística estima una fórmula matemática que relaciona una o más variables de entrada con una variable de salida.

Por ejemplo, supongamos que maneja un puesto de limonada y que está interesado en qué tipos de clientes tienden a volver. Sus datos incluyen una entrada para cada cliente, su primera compra y si volvieron al mes siguiente para obtener más limonada. Sus datos podrían tener este aspecto:

Volver  Edad del cliente Sexo Temporal en primera compra Color de limonada Longitud de pantalón
No lo hice 21 Hombre 24 Rosa Pantalones cortos
Devuelto 34 Mujer 20 Amarillo Pantalones cortos
Devuelto 13 Mujer 25 Rosa Pantalones
No lo hice 25 Mujer 27 Amarillo Vestido
etc. etc. etc. etc. etc. etc.

 

Cree que la “antigüedad del cliente” (una entrada o una variable explicativa) puede afectar a “Retorno” (una variable de salida o de respuesta). La regresión logística puede dar este resultado:

A los 12 años (la edad más baja), la probabilidad de que se devuelva el retorno es del 10%.

Por cada año adicional de edad, “Regresar” es 1,1 veces más para ser “Devuelto”.

Este conocimiento es útil por dos razones.

En primer lugar, le permite comprender una relación: es más probable que los clientes más antiguos vuelvan. Esta información estratégica puede llevarle a inclinar su publicidad hacia los clientes más antiguos, ya que serán más propensos a convertirse en clientes recurrentes.

En segundo lugar, y en relación con ello, también puede ayudarle a realizar predicciones específicas. Si un cliente de 24 años camina, podría estimar que si comprara un poco de limonada, hay un 26% de probabilidad de que luego se convierta en un cliente de devolución.

Comprender la multiplicación de probabilidades

Tenga en cuenta que si dijimos que “Devuelto” era “1,5 veces más probable” en alguna situación que en otra, estamos haciendo lo siguiente:

Las probabilidades eran 1:9, también escritas 1/(1+9) = 10%.

Las “probabilidades de” (el 1) se multiplican por 1,5.

Ahora 1,5:9, también escrito 1.5/(1.5+9) = 14%.

Otro ejemplo, esta vez de pasar del 50% de probabilidad a algo 3 veces más probable:

Las probabilidades eran 1:1, también escritas 1/(1+1) = 50%.

La “probabilidad de” (lado izquierdo 1) se multiplica por 3.

Ahora 3:1, también escrito 3/(3+1) = 75%.

Ahora veremos el proceso de creación de este modelo de regresión.

Preparación para crear un modelo de regresión

1. Piensa en la teoría de tu regresión.

Una vez que haya seleccionado una variable de respuesta, “Ingresos hipotetizan cómo se pueden relacionar varias entradas con ella. Por ejemplo, podría pensar que una mayor “temperatura en la primera compra” dará lugar a una mayor probabilidad de “Devuelto”, podría no estar seguro de cómo “Edad” afectará a “Retorno“, y podría creer que “Pantalones” (vs. pantalones cortos) se ve afectado por “Temperatura” pero no tiene ningún impacto en su puesto de limonada.
Gráfico de relaciones entre edad, temperatura, regreso y pantalones

El objetivo de la regresión normalmente es comprender la relación entre varias entradas y una salida, por lo que en este caso probablemente decidiría crear un modelo que explique “Retorno” con “Temperatura” y “Edad” (también se dice como “Predecir el retorno de la temperatura y la edad”, incluso si está más interesado en la explicación que en la predicción real).

Probablemente no incluya “Pantalones” en su regresión. Podría estar correlacionado con “Retorno” porque ambos están relacionados con “Temperatura”, pero no viene antes de “Retorno” en la cadena causal, por lo que incluirlo confundiría su modelo.

2. “Describa” todas las variables que podrían ser útiles para su modelo.

Comience describiendo la variable de respuesta, en este caso “Ingresos”, y haciéndole sentir bien. Haga lo mismo para las variables explicativas.

Tenga en cuenta que tienen una forma como esta…
Histograma inclinado a la derecha de una variable explicativa

…donde la mayoría de los datos están en las primeras ubicaciones del histograma. Estas variables requerirán una atención especial más adelante.

3. “Relacionar” todas las variables explicativas posibles a la variable de respuesta.

Stats iQ ordenará los resultados por la solidez de la relación estadística. Eche un vistazo a los resultados y descubra qué variables están relacionadas con “Ingresos” y cómo.

4. Comience a construir la regresión.

La creación de un modelo de regresión es un proceso iterativo. Recorrerá las tres etapas siguientes tantas veces como sea necesario.

Las tres etapas de la construcción de un modelo de regresión

 

Etapa 1: Sumar o restar una variable.

Uno por uno, empiece a añadir en variables que sus análisis anteriores indicaban estaban relacionados con “Ingresos” (o añada variables que tenga un motivo teórico para añadir). Ir uno a uno no es estrictamente necesario, pero facilita la identificación y resolución de problemas a medida que avanza y lo ayuda a hacerse una idea del modelo.

Supongamos que empieza por predecir “Ingresos” con “Temperatura”. Encuentra una relación fuerte, evalúa el modelo y lo encuentra satisfactorio (más detalles en un minuto).

Retorno <– Temperatura

A continuación, añada en “Color de Lemonade” y ahora su modelo de regresión tiene dos términos, ambos de los cuales son predictores de significación estadística. Así:

Ingresos <– Temperatura y color de limonada

Luego añade “Sexo”, y los resultados del modelo ahora muestran que “Sexo” es estadísticamente significativo en el modelo, pero “Color de Lemonade” ya no lo es. Normalmente, eliminaría el “color limón” del modelo. Ahora tenemos:

Ingresos <– Temperatura y sexo

Es decir, si conoce el sexo del cliente, saber qué color de limonada pidió no le da más información sobre si será cliente de devolución.

Podría investigar y descubrir que las mujeres tienden a recoger limonada amarilla más que los hombres y que las mujeres son más propensas a regresar. Así que inicialmente parecía que escoger el amarillo hacía que un cliente tuviera más probabilidades de regresar, pero de hecho, “Lemonade color” solo está relacionado con “Return” a través de “Sex”. Por lo tanto, cuando incluye “Sexo” en la regresión, “Color de Lemonade” desaparece de la regresión.

Interpretar los resultados de la regresión requiere mucho juicio, y solo porque una variable sea estadísticamente significativa, no significa que realmente sea causal. Pero añadiendo y restando variables cuidadosamente, notando cómo cambia el modelo y siempre pensando en la teoría detrás de su modelo, puede separar las relaciones interesantes en sus datos.

Etapa 2: Evaluar el modelo.

Cada vez que añade o resta una variable, debe evaluar la precisión del modelo mirando su R cuadrado (R2), AICc y cualquier alerta de Stats iQ. Cada vez que modifique el modelo, compare los nuevos diagramas r-cuadrado, AICc y de diagnóstico con los antiguos para determinar si el modelo ha mejorado o no.

R cuadrado (R2)

La métrica numérica para cuantificar la precisión de predicción del modelo se conoce como r-cuadrado, que se encuentra entre cero y uno. Un cero significa que el modelo no tiene ningún valor predictivo y uno significa que el modelo lo predice todo a la perfección.

Por ejemplo, los datos representados a la izquierda darán lugar a un modelo mucho menos preciso que los datos de la derecha. Imagine tratar de dibujar una línea a través de la trama de dispersión; podría separar casi completamente el azul (“Regresado”) del rojo (“No”) en el lado derecho, pero en el lado izquierdo sería difícil hacerlo.

Es decir, el lado derecho tiene un alto r-cuadrado; si conoce “Temperatura” y “Edad”, puede determinar “Devuelto” vs. “No” con bastante facilidad. El lado izquierdo tiene un r-cuadrado de bajo a medio; si sabes “Temperatura” y “Edad”, tienes una suposición bastante buena en cuanto a si será “Devuelto” vs.. “No lo había hecho”, pero habrá muchos errores.
Diagramas de alto y bajo r-cuadrado para temperatura frente a edad

No existe una definición fija de un r-cuadrado “bueno”. En algunas opciones puede ser interesante ver cualquier efecto, mientras que en otras su modelo puede ser inútil a menos que sea muy preciso.

Cada vez que añada una variable, r-cuadrado subirá, por lo que lograr el R-cuadrado más alto posible no es el objetivo; más bien, desea equilibrar la precisión del modelo (r-cuadrado) con su complejidad (generalmente, el número de variables que contiene).

AICc

AICc es una métrica que equilibra la precisión con la complejidad: una mayor precisión lleva a mejores puntuaciones y una complejidad añadida (más variables) lleva a peores puntuaciones. El modelo con el AICc inferior es mejor.

Tenga en cuenta que la métrica AICc solo es útil para comparar AICcs de modelos que tienen el mismo número de filas de datos y la misma variable de salida.

Alertas

De vez en cuando Stats iQ sugerirá formas de mejorar su modelo. Por ejemplo, Stats iQ puede sugerir que tome el logaritmo de una variable (detalles sobre lo que eso significa).

Matriz de confusión y curva de recuperación de precisión

La matriz de confusión y la curva de precisión y recuperación también son herramientas útiles para comprender cuán preciso es su modelo. Y si desea realizar predicciones basadas en su modelo, estas herramientas le ayudarán a hacerlo. No son estrictamente necesarias para comprender bien lo que le dice su modelo, por lo que los colocamos en una sección diferente sobre la matriz de confusión y la curva de precisión-retirada

Etapa 3: Modifique el modelo según corresponda.

Si su evaluación del modelo resulta satisfactoria, puede volver a la Etapa 1 e introducir más variables.

Si en su evaluación falta el modelo, utilizará las alertas de Stats iQ para solucionar los problemas.

A medida que modifica el modelo, tenga en cuenta continuamente el cambio de R cuadrado, AICR y diagnósticos residuales, y decida si los cambios que está realizando están ayudando o perjudicando a su modelo.

Preguntas frecuentes

Muchas de las páginas de este sitio han sido traducidas del inglés original utilizando la traducción automática. Aunque en Qualtrics hemos realizado nuestra diligencia debida para obtener las mejores traducciones automáticas posibles, la traducción automática nunca es perfecta. El texto original en inglés se considera la versión oficial, y cualquier discrepancia entre el inglés original y las traducciones automáticas no son legalmente vinculantes.