Guida di facile consultazione alla regressione lineare

Suite

Customer Experience Employee Experience Strategy & Research

Prodotto

Qualtrics

Cosa puoi trovare in questa pagina

Che cos’è la regressione?

La
regressione stima una formula matematica che mette in relazione una o più variabili di input con una variabile di output.

Per esempio, diciamo che gestite un chiosco di limonate e siete interessati a capire quali sono gli elementi che determinano le entrate. I dati includono le “Entrate” di ogni giorno, la “Temperatura” elevata, il “Numero di bambini che sono passati”, il “Numero di adulti che sono passati”, la “Segnaletica” utilizzata quel giorno e le “Entrate di un concorrente” vicino

Reddito	Temperatura (Celsius)	Minuti di pausa	Numero di bambini che hanno camminato	Numero di adulti che hanno camminato	Segnaletica	Ricavi della concorrenza
44 $	28,2	30	43	380	Dipinto a mano	$20
23 $	21,4	42	28	207	LED	30 $
43 $	32,9	14	43	364	Dipinto a mano	$34
30 $	24,0	24	18	103	LED	$15
ecc.	ecc.	ecc.	ecc.	ecc.	ecc.	ecc.

Pensate che “Temperatura” (una variabile di inputo esplicativa) possa avere un impatto su “Ricavi” (una variabile di outputo di risposta). Quando si usa la regressione per analizzare questa relazione, si può ottenere la seguente formula

: Entrate = 2,71 * Temperatura – 35Questa

formula è utile per due motivi.

In primo luogo, permette di comprendere una relazione: giornate più calde portano a un maggior numero di “Entrate” In particolare, il 2,71 prima di “Temperatura” (chiamato coefficiente) significa che per ogni grado in più di “Temperatura”, in media ci saranno 2,71 dollari in più di “Entrate” Questa intuizione potrebbe portarvi a decidere di non vendere limonate nelle giornate fredde.

In secondo luogo, e in modo correlato, può anche aiutare a fare previsioni specifiche. Se la “Temperatura” è di 24, si può stimare che, poiché…

Entrate = 2,71 * Temperatura – 35
Entrate = 2,71 * 24 – 35
Entrate = 30

… si avranno circa 30 dollari di “Entrate” Questa potrebbe essere un’informazione utile per sapere se sarete in grado di effettuare un pagamento quel giorno, ammesso che siate sicuri che il vostro modello sia accurato.

Ora esamineremo il processo di creazione di questa equazione di regressione.

Preparazione alla creazione di un modello di regressione

1. Pensate alla teoria della regressione

Una volta scelta una variabile di risposta, “Entrate“, ipotizzate come i vari input possano essere correlati ad essa. Ad esempio, potreste pensare che una “Temperatura” più alta porterà a un “Ricavo” più alto, potreste non essere sicuri di come le varie insegne influiscano sul “Ricavo” e potreste credere che le “Vendite dei concorrenti” siano influenzate dalla “Temperatura” ma non abbiano alcun impatto sul vostro chiosco di limonate.

Grafico della relazione tra insegne, tempo determinato, ricavi e concorrenti

L’obiettivo della regressione è tipicamente quello di capire la relazione tra diversi input e un output, quindi in questo caso probabilmente si deciderà di creare un modello che spieghi le “Relazioni” con la “Temperatura”e la “Segnaletica”(detto anche “previsione delle Entrate dalla Temperatura e dalla Segnaletica“, anche se si è più interessati alla spiegazione che alla previsione vera e propria).

Probabilmente non includereste le “vendite dei concorrenti” nella vostra regressione. È probabile che sia correlato al “reddito”, ma non lo precede nella catena causale, quindi includerlo confonderebbe il modello.

2. “Descrivere tutte le variabili che potrebbero essere utili per il modello

Cominciate a descrivere la variabile di risposta, in questo caso “entrate”, e a farvi un’idea della stessa. Fate lo stesso per le variabili esplicative.

Nota che hanno una forma come questa..

… dove la maggior parte dei dati si trova nei primi bins dell’istogramma. Queste variabili richiederanno un’attenzione particolare in seguito.

3. “Mettere in relazione tutte le possibili variabili esplicative con la variabile di risposta

Stats iQ ordina i risultati in base alla forza della relazione statistica. Date un’occhiata e fatevi un’idea dei risultati, notando quali variabili sono correlate alle “Entrate” e in che modo.

Se si ha già una buona idea di quali variabili dovrebbero teoricamente guidare l’output (ad esempio, da precedenti articoli accademici), si può saltare questo passaggio. Ma se la vostra analisi è di natura più esplorativa (come un sondaggio), questo è un passo utile e importante.

4. Iniziare a costruire la regressione

La costruzione di un modello di regressione è un processo iterativo. Passerete attraverso le tre fasi seguenti tutte le volte che sarà necessario.

Le tre fasi di costruzione di un modello di regressione

Fase 1: Aggiungere o sottrarre una variabile

Uno alla volta, iniziate ad aggiungere le variabili che le analisi precedenti indicavano essere correlate al “fatturato” (o aggiungete le variabili che avete una ragione teorica per aggiungere). Non è strettamente necessario procedere uno per uno, ma in questo modo è più facile identificare e risolvere i problemi man mano che si procede e ci si può fare un’idea del modello.

Supponiamo di iniziare prevedendo “Entrate” con “Temperatura” Trovate una relazione forte, valutate il modello e lo ritenete soddisfacente (maggiori dettagli tra un minuto).

Entrate = 2,71 * Temperatura – 35Se

poi si aggiunge il “Numero di bambini che sono passati”, il modello di regressione presenta due termini, entrambi predittori statisticamente significativi. In questo modo

: Entrate = 2,5 * Temperatura +

,3 * Numero di bambini che hanno camminato – 12Poi

si aggiunge “Numero di adulti che hanno camminato” e i risultati del modello mostrano che “Numero di adulti” è statisticamente significativo nel modello, ma “Numero di bambini” non lo è più. In genere si rimuove “Numero di figli” dal modello. Ora abbiamo:

Entrate = 2,6 * Temperatura + 0,4 * Numero di adulti che hanno camminato– 14

Ciò significa che il “Numero di adulti” è il miglior predittore delle “Entrate”; cioè, se si sa quanti adulti passano, sapere quanti bambini passano non aggiunge alcuna nuova informazione, non aiuta a prevedere le vendite.

Forse ripensandoci si ricorda che i bambini non comprano mai la limonata, quindi è logico che quella variabile non appartenga al modello.

Ma perché era statisticamente significativo nel primo modello? Probabilmente perché il “Numero di bambini” è correlato al “Numero di adulti” e, poiché il “Numero di adulti” non era ancora presente nel modello, il “Numero di bambini”fungeva da proxy approssimativo del “Numero di adulti”

L’interpretazione dei risultati della regressione richiede una buona dose di giudizio e il fatto che una variabile sia statisticamente significativa non significa che sia effettivamente causale. Ma aggiungendo e sottraendo con attenzione le variabili, notando come cambia il modello e pensando sempre alla teoria che sta alla base del modello, è possibile individuare relazioni interessanti nei dati.

Fase 2: Assessment del modello

Ogni volta che si aggiunge o si sottrae una variabile, è necessario valutare l’accuratezza del modello esaminando il suo r-quadro (^R2), l’AICR e i grafici dei residui. Ogni volta che si modifica il modello, confrontare i nuovi grafici di r-squared, AICR e residui con quelli precedenti per determinare se il modello è migliorato o meno.

Quadro R (^R2)

La metrica numerica per quantificare l’accuratezza della previsione del modello è nota come r-squared, che è compresa tra zero e uno. Uno zero significa che il modello non ha alcun valore predittivo, mentre un uno significa che il modello predice perfettamente tutto.

Ad esempio, il modello a sinistra è più preciso di quello a destra; cioè, se si conosce la “Temperatura”, si può indovinare abbastanza bene quale sarà il “Reddito”a sinistra, ma non quello a destra.

Grafici dei valori di r-squared alti e bassi per la temperatura rispetto al reddito

Non esiste una definizione fissa di un “buon” r-squared. In alcuni contesti potrebbe essere interessante vedere qualsiasi effetto, mentre in altri il modello potrebbe essere inutile, a meno che non sia molto accurato.

Ogni volta che si aggiunge una variabile, l’r-squared aumenterà, quindi l’obiettivo non è raggiungere l’r-squared più alto possibile; piuttosto, si vuole bilanciare l’accuratezza del modello (r-squared) con la sua complessità (in genere, il numero di variabili in esso contenute).

AICR

L’AICR è una metrica che bilancia l’accuratezza con la complessità: una maggiore accuratezza porta a punteggi migliori, mentre una maggiore complessità (più variabili) porta a punteggi peggiori. Il modello con l’AICR più basso è migliore.

Si noti che la metrica AICR è utile solo per confrontare gli AICR di modelli che hanno lo stesso numero di righe di datiela stessa variabile di output.

Intervalli di previsione

Un altro modo utile per farsi un’idea dell’accuratezza del modello è quello di inserire nella formula dei campioni e vedere l’intervallo di predict iq calcolato da Stats iQ. Ad esempio, se inserite il numero 30 nella formula, Stats iQ vi dirà che il valore predict iq è 45,5, ma che l’intervallo di confidenza al 95% è compreso tra 36,4 e 54,5, il che significa che potreste essere sicuri al 95% che se domani ci fossero 30 gradi, otterreste tra i 36,40 e i 54,50 dollari di “entrate” Si potrebbe immaginare un modello più accurato se l’intervallo di previsione fosse una fascia stretta come 44-48 dollari, o uno meno accurato se l’intervallo fosse ampio, come 20-72 dollari.

Questo approccio è utile solo se le trame residue sembrano sane (vedi sotto), altrimenti saranno imprecise.

Resti

I residui sono lo strumento diagnostico principale per valutare e migliorare la regressione, quindi c’è un’intera sezione separata sull’interpretazione dei residui per migliorare il modello. Imparerete o rinfrescherete la memoria su cosa sono i residui, su come usarli per valutare e migliorare il modello e su come pensare a quanto è necessario che il modello sia accurato.

Vi raccomandiamo di leggerlo per intero, in quanto contiene tutto ciò che è necessario per produrre un modello eccellente. Ma si può sempre tornare indietro, naturalmente.

Fase 3: modificare il modello di conseguenza

Se l’Assessment del modello è soddisfacente, il gioco è fatto, oppure si può tornare alla Fase 1 e inserire altre variabili.

Se l’assessment rileva delle carenze nel modello, si potranno utilizzare gli avvisi di Stats iQ e la sezione di diagnostica residua per risolvere i problemi.

Man mano che si modifica il modello, si devono osservare le variazioni di r-squared, AICR e diagnostica dei residui e decidere se le modifiche apportate stanno aiutando o danneggiando il modello.

FAQs

Come posso creare una nuova variabile Stats iQ?

È possibile creare una nuova variabile facendo clic su Crea o Cancella nell'angolo in basso a sinistra dello spazio di lavoro. Per ulteriori informazioni, visita la pagina di supporto su Creazione variabili.

Quali sono le opzioni per analizzare i miei dati in Stats iQ?

Stats iQ fornisce quattro opzioni per l’analisi dei dati:

Descrivi: selezionando una variabile dall'elenco e facendo clic su Describe potrai visualizzare i dati contenuti in quella variabile. Da utilizzare quando si desidera vedere come vengono distribuiti i dati per una determinata variabile.
Correla: selezionando due variabili e facendo clic su Correla verrà eseguita un'analisi statistica della relazione tra le due variabili. Da utilizzare quando si desidera conoscere l'intensità della correlazione tra due variabili.
Tabella pivot: selezionando due o più variabili e facendo clic su Tabella pivot verrà creata una tabella che visualizza i valori delle variabili come righe e colonne. Le celle possono essere impostate in modo da visualizzare una serie di informazioni diverse, tra cui la percentuale di colonne e righe, la somma e lo scostamento. Da utilizzare quando si desidera confrontare la sovrapposizione tra valori specifici di un insieme di variabili.
Regressione: selezionando due variabili e facendo clic su Regressione si otterrà la relazione matematica tra le variabili. Da utilizzare quando si desidera prevedere i valori di una variabile in base ai valori di un'altra.
Cluster: selezionando da due a dieci variabili demografiche e facendo clic su Cluster verranno visualizzati raggruppamenti di tratti che più probabilmente si verificheranno insieme, rivelando così i segmenti di popolazione catturati nei tuoi dati.

Non so cosa significhi questo termine statistico. Me lo puoi dire?

Test statistici: ANOVA, T-test e Chi-quaded sono tutti test statistici che Stats iQ esegue per verificare se la relazione tra due variabili è significativa o meno. Questi test sono utilizzati per generare un P-Value.
Valore P: questo valore rappresenta la probabilità che i risultati osservati siano visti se non esiste alcuna correlazione tra le variabili. Un P-Value inferiore significa dati più correlati.
Dimensione dell'effetto: la dimensione dell'effetto è una misura di quanto grande sia la correlazione tra due variabili. Ciò viene misurato in modi diversi a seconda del tipo di test statistico eseguito. Esempi sono Cohen’s d, Pearson’s r, e Cramer’s v. Maggiore è il valore della dimensione dell'effetto, più le variabili sono correlate.

Per maggiori informazioni, visita la pagina di supporto Ipotesi di test statistico e dettagli tecnici.

Come posso filtrare i dati visualizzati in Stats iQ?

Puoi filtrare i dati visualizzati in Stats iQ su due livelli diversi: su schede singole e sull’area di lavoro generale. Le relative istruzioni sono reperibili nella pagina “Filtraggio dei dati” di Stats iQ.

Come faccio a far comparire le mie nuove risposte in Stats iQ?

In Stats iQ, fai clic sul pulsante Impostazioni e seleziona Importa ultimi dati. Questa operazione importerà eventuali nuove risposte in Stats iQ e le includerà nella tua analisi.

Come vengono ordinate le schede di analisi nel mio workspace Stats iQ?

Le schede di analisi vengono ordinate automaticamente per mostrare i risultati statisticamente più significativi. È possibile modificare l'ordine di visualizzazione delle variabili nel set di dati passando al menu Impostazioni di analisi.

Che cos'è Stats iQ? / Dov'è Statwing?

Stats iQ è il nuovo nome per Statwing. Potete trovare Stats iQ andando a qualsiasi progetto, andando a Dati e Analisi e selezionando Stats iQ.

Cosa fare se i dati non vengono caricati correttamente?

Assicurarsi di aver caricato il set di dati corrente cliccando su Importa dati recenti in Stats iQ. Se i dati non vengono ancora caricati correttamente, contattare il Supporto Qualtrics.

Molte delle pagine di questo sito sono state tradotte dall'originale in inglese mediante traduzione automatica. Sebbene in Qualtrics abbiamo profuso il massimo impegno per avere le migliori traduzioni automatiche possibili, queste non sono mai perfette. Il testo originale inglese è considerato la versione ufficiale, e qualsiasi discrepanza tra questo e le traduzioni automatiche non è legalmente vincolante.

Ti è stato utile?

Il feedback inviato qui viene utilizzato solo per migliorare questa pagina.

È fantastico! Grazie per il tuo feedback!

Grazie per il tuo feedback!