Passa al contenuto principale
Loading...
Skip to article
  • Qualtrics Platform
    Qualtrics Platform
  • Customer Journey Optimizer
    Customer Journey Optimizer
  • XM Discover
    XM Discover
  • Qualtrics Social Connect
    Qualtrics Social Connect

Guida user-friendly alla regressione logistica


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Che cos’è la regressione logistica?

La regressione logistica stima una formula matematica che mette in relazione una o più variabili di input con una variabile di uscita.

Ad esempio, si supponga di gestire uno stand di limonata e di essere interessato a quali tipi di clienti tendono a tornare. I tuoi dati includono un inserimento per ogni cliente, il loro primo acquisto e se sono tornati entro il mese successivo per avere più limonata. I dati potrebbero avere il seguente aspetto:

Restituisci  Età del cliente Sesso Temp. al primo acquisto Colore limonata Lunghezza della mutanda
No 21 Maschio 24 Rosa Shorts
Restituito 34 Femmina 20 Giallo Shorts
Restituito 13 Femmina 25. pos. ubicazione Rosa Pantaloni
No 25. pos. ubicazione Femmina 27 Giallo Abbigliamento
ecc. ecc. ecc. ecc. ecc. ecc.

 

Si ritiene che “Età cliente” (una variabile di input o esplicativa) potrebbe influire su “Ritorno” (una variabile di output o di risposta). La regressione logistica potrebbe portare a questo risultato:

All’età di 12 anni (l’età più bassa), la probabilità di un ritorno “Restituito” è del 10%.

Per ogni ulteriore anno di età, il “Ritorno” è 1,1 volte di più da “Restituire”.

Questo po’ di conoscenza è utile per due motivi.

In primo luogo, permette di capire una relazione: i clienti più anziani hanno più probabilità di tornare. Queste informazioni potrebbero condurvi a piegare la pubblicità verso i clienti più anziani, poiché saranno più propensi a diventare clienti ricorrenti.

In secondo luogo, e in modo correlato, può anche aiutare a effettuare previsioni specifiche. Se un cliente di 24 anni passeggiasse, potresti stimare che se acquistasse una limonata, c’è una probabilità del 26% che in seguito diventerebbe un cliente di ritorno.

Comprensione della moltiplicazione delle probabilità

Nota che se dicevamo “Restituito” era “1,5 volte più probabile” in qualche situazione che in un’altra, stiamo facendo il seguente:

Le probabilità erano 1:9, scritto anche 1/(1+9) = 10%.

Le “probabilità per” (1) sono moltiplicate per 1,5.

Ora 1,5:9, scritto anche 1.5/(1,5+9) = 14%.

Un altro esempio, questa volta di passare dal 50% di probabilità a qualcosa 3 volte più probabile:

Le probabilità erano 1:1, scritto anche 1/(1+1) = 50%.

Le “probabilità per” (il lato sinistro 1) sono moltiplicate per 3.

Ora 3:1, scritto anche 3/(3+1) = 75%.

Ora attraverseremo il processo di creazione di questo modello di regressione.

Preparazione alla creazione di un modello di regressione

1. Pensate attraverso la teoria della vostra regressione.

Una volta scelta una variabile di risposta, “Fatturato ipotizza come vari input possano essere correlati ad essa. Ad esempio, potresti pensare che una maggiore “Temperatura al primo acquisto” porterà a una maggiore probabilità di “Ritorno”, potresti non essere sicuro di come “Età” influenzerà “Ritorno“, e potresti credere che “Pantaloni” (rispetto ai pantaloncini) sia influenzato da “Temperatura” ma non abbia alcun impatto sul tuo stand di limonata.
Piano delle relazioni tra età, temperatura, ritorno e mutui

L’obiettivo della regressione è in genere quello di capire la relazione tra diversi input e un output, quindi in questo caso probabilmente si deciderebbe di creare un modello che spieghi “Ritorno” con “Temperatura” ed “Età” (detto anche come “prevedere il ritorno da temperatura ed età”, anche se si è più interessati alla spiegazione che alla previsione reale).

Probabilmente non includeresti “Pantaloni” nella tua regressione. Potrebbe essere correlato al “Ritorno” perché entrambi sono correlati a “Temperatura”, ma non viene prima di “Ritorno” nella catena causale, quindi l’inclusione confonderebbe il tuo modello.

2. “Descrivere” tutte le variabili che potrebbero essere utili per il modello.

Inizia descrivendo la variabile di risposta, in questo caso “Fatturato”, e facendoti sentire bene. Eseguire la stessa operazione per le variabili esplicative.

Nota che hanno una forma come questa…
Istogramma con barra destra di una variabile esplicativa

…dove la maggior parte dei dati si trova nei primi bin dell’istogramma. Tali variabili richiederanno in seguito un’attenzione particolare.

3. “Collegare” tutte le possibili variabili esplicative alla variabile di risposta.

Stats iQ ordinerà i risultati in base alla forza della relazione statistica. Dai un’occhiata e ottieni un’idea dei risultati, osservando quali variabili sono correlate al “Fatturato” e in che modo.

4. Iniziare a creare la regressione.

La creazione di un modello di regressione è un processo iterativo. Le tre fasi che seguono saranno eseguite tutte le volte necessarie.

Le tre fasi di costruzione di un modello di regressione

 

Fase 1: aggiungere o sottrarre una variabile.

Uno per uno, inizia ad aggiungere variabili che le tue analisi precedenti indicavano relative a “Fatturato” (o aggiungi variabili che hai un motivo teorico da aggiungere). Andare uno alla volta non è strettamente necessario, ma facilita l’identificazione e la risoluzione dei problemi man mano che si procede, aiutandoti a percepire il modello.

Supponiamo di iniziare prevedendo “Fatturato” con “Temperatura”. Si trova un rapporto forte, si valuta il modello e lo si trova soddisfacente (maggiori dettagli in un minuto).

Ritorno <– TemperatureSi

aggiunge quindi in “Colore Lemonade” e ora il modello di regressione ha due termini, entrambi fattori di probabilità statisticamente significativi. Come questo:

Revenue <– Temperature & Lemonade colorThen

you add “Sex”, e i risultati del modello ora mostrano che “Sex” è statisticamente significativo nel modello, ma “Lemonade color” non lo è più. In genere si rimuove “Colore limonata” dal modello. Ora abbiamo:

Ricavi <– Temperatura e amplificatore; SexOvvero

, se conosci il sesso del cliente, sapere quale colore di limonata hanno ordinato non ti dà ulteriori informazioni su se sarà un cliente di ritorno.

Potreste indagare e scoprire che le donne tendono a scegliere la limonata gialla più degli uomini e che le donne hanno più probabilità di ritornare. Così inizialmente sembrava che la scelta del giallo rendesse un cliente più propenso a tornare, ma in realtà, “Lemonade color” è legato solo a “Return” attraverso “Sex“. Quindi quando si include “Sex” nella regressione, “Lemonade color” esce dalla regressione.

Interpretare i risultati della regressione richiede una buona dose di giudizio, e solo perché una variabile è statisticamente significativa, non significa che sia effettivamente causale. Ma aggiungendo e sottraendo con attenzione le variabili, notando come cambia il modello e pensando sempre alla teoria che sta dietro il modello, è possibile mettere in secondo piano relazioni interessanti nei dati.

Fase 2: Valutazione del modello.

Ogni volta che si aggiunge o sottrae una variabile, è necessario valutare l’accuratezza del modello osservandone l’R quadro (R2), AICc ed eventuali avvisi di Stats iQ. Ogni volta che si cambia il modello, si confrontano i nuovi grafici R quadro, AICc e diagnostici con quelli vecchi per determinare se il modello è migliorato o meno.

R-quadrato (R2)

La metrica numerica per la quantificazione dell’accuratezza di previsione del modello è nota come R quadro, che è compresa tra zero e uno. Lo zero indica che il modello non ha un valore predittivo e uno indica che il modello prevede perfettamente tutto.

Ad esempio, i dati rappresentati a sinistra porteranno a un modello molto meno accurato dei dati a destra. Immaginate di cercare di tracciare una linea attraverso la trama a dispersione; potreste separare quasi completamente il blu (“Ritornato”) dal rosso (“Non c’è”) sul lato destro, ma sul lato sinistro sarebbe difficile farlo.

Cioè, il lato destro ha un R quadrato alto; se conosci “Temperatura” ed “Età”, puoi determinare “Restituito” vs. “Non c’era” abbastanza facilmente. Il lato sinistro ha un R quadrato da basso a medio; se conosci “Temperatura” ed “Età”, hai un’ipotesi abbastanza buona se sarà “Restituita” vs. “No”, ma ci saranno molti errori.
Tracciati di R quadro alti e bassi per la temperatura rispetto alletà

Non esiste una definizione fissa di R quadro “buono”. In alcune impostazioni potrebbe essere interessante vedere qualsiasi effetto, mentre in altre il modello potrebbe essere inutile a meno che non sia altamente accurato.

Ogni volta che si aggiunge una variabile, R quadro salirà, in modo che il raggiungimento dell’R quadro più alto possibile non sia l’obiettivo; piuttosto, si desidera bilanciare l’accuratezza del modello (R quadro) con la sua complessità (in genere, il numero di variabili in esso contenute).

AICc

L’AICc è una metrica che bilancia l’accuratezza con la complessità – una maggiore accuratezza porta a punteggi migliori e maggiore complessità (più variabili) porta a punteggi peggiori. Meglio il modello con l’AICc inferiore.

Notare che la metrica AICc è utile solo per confrontare AICcs da modelli che hanno lo stesso numero di righe di dati e la stessa variabile di uscita.

Avvisi

Di tanto in tanto Stats iQ suggerirà modi per migliorare il tuo modello. Ad esempio, Stats iQ può suggerire di prendere il logaritmo di una variabile (dettagli su cosa significa).

Matrice di confusione e curva Precision-Recall

La matrice di confusione e la curva di precisione/richiamo sono inoltre strumenti utili per comprendere l’accuratezza del modello. Inoltre, se si desidera effettuare previsioni in base al modello, questi strumenti ti aiuteranno a farlo. Non sono strettamente necessari per ottenere una buona comprensione di ciò che il modello ti sta dicendo, quindi li inseriamo in una sezione diversa sulla matrice di confusione e sulla curva di richiamo di precisione

Fase 3: Modificare il modello di conseguenza.

Se la valutazione del modello lo ha giudicato soddisfacente, si è fatto o si può tornare alla Fase 1 e inserire più variabili.

Se la tua valutazione rileva la mancanza del modello, utilizzerai gli avvisi di Stats iQ per risolvere i problemi.

Quando si modifica il modello, notare continuamente le modifiche R quadro, AICR e diagnostica residua e decidere se le modifiche apportate aiutano o danneggiano il modello.

FAQ

Molte delle pagine di questo sito sono state tradotte dall'originale in inglese mediante traduzione automatica. Sebbene in Qualtrics abbiamo profuso il massimo impegno per avere le migliori traduzioni automatiche possibili, queste non sono mai perfette. Il testo originale inglese è considerato la versione ufficiale, e qualsiasi discrepanza tra questo e le traduzioni automatiche non è legalmente vincolante.