Passa al contenuto principale
Loading...
Skip to article
  • Customer Experience
    Customer Experience
  • Employee Experience
    Employee Experience
  • Brand Experience
    Brand Experience
  • Core XM
    Core XM
  • Design XM
    Design XM

Ipotesi e dettagli tecnici del test statistico


Was this helpful?


This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

The feedback you submit here is used only to help improve this page.

That’s great! Thank you for your feedback!

Thank you for your feedback!


Stats iQ seleziona i test statistici con l’obiettivo di renderli intuitivi e privi di errori.

Questa pagina descrive i temi generali dell’approccio di Stats iQ e le seguenti descrivono le decisioni specifiche per i test specifici:

Assunzioni di base

Ogniqualvolta possibile, Stats iQ propone di default test che hanno meno assunzioni. Ad esempio, i test t dei campioni indipendenti possono essere calcolati in diversi modi, a seconda che si presuppongano campioni di dimensioni uguali o scostamenti. Stats iQ esegue il test con il minimo di presupposti.

Inoltre, Stats iQ mitiga in modo intelligente le violazioni delle assunzioni dei test statistici. Ad esempio, i test t su campioni relativamente piccoli richiedono dati distribuiti normalmente per essere accurati. I valori fuori norma o le distribuzioni non normali creano risultati fuorvianti. Ogni punto di dati di

[1, 2, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 9, 10]

è inferiore a ogni punto di dati in

[11, 12, 13, 13, 14, 14, 15, 15, 15, 16, 16, 17, 17, 18, 19, 2000]

ma un test t di campioni indipendenti su tali gruppi non produce una differenza statisticamente significativa perché il valore fuori norma del 2000 viola le ipotesi del test t. Stats iQ nota l’outlier e raccomanda invece un t-test classificato, che produce una differenza molto chiara tra i gruppi.

Trasformazioni di classificazione

Stats iQ utilizza frequentemente il metodo della trasformazione del rango per eseguire test non parametrici quando vengono rilevate violazioni delle ipotesi dei test parametrici. La trasformazione della posizione di Stats iQ sostituisce i valori con l’ordine in classifica, ad esempio

[86, 95, 40] è trasformato in [2, 3, 1]

—esegue quindi il test parametrico tipico sui dati trasformati. Ai valori vincolati viene assegnato il rango medio dei valori collegati, quindi

[11, 35, 35, 52] diventa [1, 2.5, 2.5, 4].

Più comunemente incontrati nella differenza tra le correlazioni di Pearson e Spearman, i test trasformati in rank sono robusti a distribuzioni non normali e outlier, e sono concettualmente più semplici rispetto all’uso di test non parametrici leggermente più comuni.

ANOVA

Quando gli utenti selezionano una variabile categoriale con tre o più gruppi e una variabile continua o discreta, Stats iQ esegue un’ANOVA unidirezionale (test F di Welch) e una serie di test “post hoc” a coppie (test Games-Howell). I test di ANOVA a senso unico per una relazione complessiva tra le due variabili, e i test a coppie testano ogni possibile coppia di gruppi per vedere se un gruppo tende ad avere valori più alti rispetto all’altro.

Ipotesi dell’ANOVA del test F di Welch

Stats iQ raccomanda un test F di Welch non classificato se diverse ipotesi sulla conservazione dei dati:

  • La dimensione del campione è maggiore di 10 volte il numero di gruppi nel calcolo (i gruppi con un solo valore sono esclusi), e pertanto il teorema del limite centrale soddisfa il requisito per i dati distribuiti normalmente.
  • Esistono pochi o nessun valore fuori norma nei dati continui/discreti.

A differenza del test F leggermente più comune per variazioni uguali, il test F di Welch non presuppone che le varianze dei gruppi confrontati siano uguali. Assumere variazioni uguali porta a risultati meno accurati quando le varianze non sono di fatto uguali, e i suoi risultati sono molto simili quando le varianze sono effettivamente uguali (Tomarken e Serlin, 1986).

ANOVA classificata

Quando si violano le ipotesi, l’ANOVA non classificata potrebbe non essere più valida. In tal caso, Stats iQ raccomanda l’ANOVA classificata (chiamata anche “ANOVA sui ranghi”); Stats iQ trasforma i dati (sostituisce i valori con il loro ordinamento in classifica) e poi esegue la stessa ANOVA su tali dati trasformati.

L’ANOVA classificata è robusta per gli outlier e i dati non distribuiti normalmente. La trasformazione di rango è un metodo consolidato per proteggersi dalla violazione delle assunzioni (un metodo “non parametrico”), ed è più comunemente visto nella differenza tra la correlazione di Pearson e Spearman. La trasformazione in classifica seguita dal test F di Welch è simile in effetti al Kruskal-Wallis Test (Zimmerman, 2012).

Tieni presente che le dimensioni dell’effetto ANOVA classificate e non classificate di Stats iQ (f di Cohen) sono calcolate utilizzando il valore F del test F per variazioni uguali.

Ipotesi del test a coppie Games-Howell

Stats iQ esegue i test Games-Howell indipendentemente dall’esito del test ANOVA (come da Zimmerman, 2010). Stats iQ mostra test a coppie Games-Howell non classificati o classificati basati sugli stessi criteri utilizzati per l’ANOVA classificata o non classificata; quindi se vedi “ANOVA classificata” nell’output avanzato, verranno classificati anche i test a coppie.

Il Games-Howell è essenzialmente un t-test per varianze disuguali che rende conto dell’elevata probabilità di trovare risultati statisticamente significativi per caso quando si eseguono molti test a coppie. A differenza del test b di Tukey leggermente più comune, il test di Games-Howell non presuppone che le varianze dei gruppi confrontati siano uguali. Assumere variazioni uguali porta a risultati meno accurati quando le varianze non sono di fatto uguali, e i suoi risultati sono molto simili quando le varianze sono effettivamente uguali (Howell, 2012).

Si noti che mentre il test a coppie non classificato verifica l’uguaglianza dei mezzi dei due gruppi, il test a coppie classificato non verifica esplicitamente le differenze tra i mezzi o i mediani dei gruppi. Piuttosto, verifica una tendenza generale di un gruppo ad avere valori più grandi rispetto all’altro.

Inoltre, mentre Stats iQ non mostra risultati di test a coppie per nessun gruppo con meno di 4 valori, tali gruppi sono inclusi nel calcolo dei gradi di libertà per gli altri test a coppie.

Ulteriori considerazioni sull’ANOVA

  1. Con campioni di dimensioni inferiori, i dati possono ancora essere ispezionati visivamente per determinare se sono effettivamente distribuiti normalmente; se lo è, i risultati dei test T non classificati sono ancora validi anche per campioni di piccole dimensioni. In pratica, questa valutazione può essere difficile da effettuare, quindi Stats iQ raccomanda test T classificati per impostazione predefinita per campioni di piccole dimensioni.
  2. Con dimensioni del campione più grandi, i valori fuori norma hanno meno probabilità di influire negativamente sui risultati. Stats iQ utilizza la “recinzione esterna” di Tukey per definire i valori fuori norma come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° punto percentile.
  3. Dati come Alto livello di istruzione completato o Ordine di completamento in maratona sono senza ambiguità ordinali. Sebbene le scale di Likert (come una scala da 1 a 7 dove 1 è molto insoddisfatto e 7 è molto soddisfatto) sono tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (cioè con un test t non classificato).

Tabelle di contingenza Stats iQ

Quando gli utenti selezionano due variabili categoriali, Stats iQ valuta se queste due variabili sono statisticamente correlate. Stats iQ esegue il test esatto di Fisher quando possibile, e altrimenti esegue il test chi-quadrato di Pearson (tipicamente chiamato “chi-quadrato”).

Chi-quadrato vs. Test esatto di Fisher

Il test esatto di Fisher è imparziale ogni volta che può essere eseguito, ma è computazionalmente difficile da eseguire se la tabella è maggiore di 2 x 2 o la dimensione del campione è maggiore di 10.000 (anche con il calcolo moderno). I test chi-quadrati possono avere risultati distorti quando le dimensioni dei campioni sono basse (tecnicamente, quando la conta prevista delle cellule è inferiore a 5).

Fortunatamente, i due test sono complementari in quanto il test esatto di Fisher è tipicamente facile da calcolare quando i test chi-quadrati sono parziali (piccoli campioni), e quando il test esatto di Fisher è difficile da calcolare, il chi-quadrato tende ad essere imparziale (campioni grandi). Insomuch poiché tabelle più grandi con piccoli campioni possono ancora creare problemi (e Stats iQ non può eseguire un test esatto di Fisher), Stats iQ avvisa gli utenti di potenziali complicazioni.

Residui adattati

Come altri software statistici, Stats iQ utilizza residui adattati per valutare se una singola cella sia statisticamente significativamente al di sopra o al di sotto delle aspettative. Sostanzialmente, il residuo corretto chiede: “Questa cella ha più valori di quelli che mi sarei aspettato se non ci fosse alcuna relazione tra queste due variabili?”

Se i dati visualizzati sono tali che ogni colonna ammonta al 100%, puoi dire “La percentuale di intervistati finanziari/bancari che hanno dichiarato di ‘amare il loro lavoro’ è inferiore al normale, rispetto agli intervistati di altri settori”.

Stats iQ mostra fino a 3 frecce, a seconda del valore p calcolato dal residuo corretto. Stats iQ mostrerà un numero diverso di frecce a seconda del grado di significatività del risultato. Nello specifico, viene mostrata una freccia se il valore p è minore di alfa (1 – livello di confidenza), due frecce se il valore p è inferiore a alfa/5 e tre frecce se il valore p è minore di alfa/50. Ad esempio, se il livello di confidenza è stato impostato su 95%:

  • Valore p <= .05: una freccia
  • Valore p <= .01: due frecce
  • Valore p <= .001: tre frecce

Il calcolo del residuo corretto, e il suo confronto con specifici livelli alfa, può essere etichettato come “test z” o “test z per una percentuale di campione”. La letteratura in genere dice semplicemente che le conclusioni erano basate su residui aggiustati.

Intervalli di fiducia

Per tutti gli intervalli di confidenza binomiali, incluse le tabelle di contingenza e i grafici a barre Descrizione categoria, Stats iQ calcola l’intervallo di confidenza utilizzando l’Intervallo punteggio Wilson.

Correlazioni Stats iQ

Quando gli utenti selezionano due variabili continue o discrete, Stats iQ esegue una correlazione per valutare se questi due gruppi sono statisticamente correlati. Stats iQ non calcola in modo predefinito il tipo di correlazione più comune di Pearson; se le assunzioni di quel test non sono soddisfatte, Stats iQ raccomanda una versione classificata dello stesso test, calcolando il rho di Spearman. Inoltre, Stats iQ utilizza la trasformazione Fisher per calcolare gli intervalli di confidenza per il coefficiente di correlazione.

Ipotesi di r di Pearson

Stats iQ raccomanda r di Pearson come misura valida di correlazione se sono soddisfatte determinate ipotesi sui dati:

  • Non sono presenti valori fuori norma nei dati continui/discreti.
  • La relazione tra le variabili è lineare (ad esempio, y = 2x, non y = x^2).

Stats iQ non mostra una linea di miglior adattamento quando rileva una violazione di queste assunzioni.

Correlazione classificata (Rho di Spearman)

Quando le ipotesi sono violate, la r di Pearson potrebbe non essere più una misura valida di correlazione. In tal caso, Stats iQ raccomanda il rho di Spearman; Stats iQ trasforma i dati (sostituisce i valori con il loro ordinamento in classifica) quindi esegue la correlazione tipica. La trasformazione di rango è un metodo consolidato per proteggersi dalla violazione delle assunzioni (un metodo “non parametrico”), e la trasformazione di rango da Pearson a Spearman è la più comune (Conover e Iman, 1981). Si noti che il rho di Spearman assume ancora che la relazione tra le variabili sia monotona.

Ulteriori considerazioni per le correlazioni

  1. Con dimensioni del campione più grandi, i valori fuori norma hanno meno probabilità di influire negativamente sui risultati. Stats iQ utilizza la “recinzione esterna” di Tukey per definire i valori fuori norma come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° punto percentile.
  2. Stats iQ identifica una relazione come non lineare quando la rho di Spearman > 1,1 * r di Pearson e la rho di Spearman sono statisticamente significative.
  3. Anche se le scale di Likert (come una scala da 1 a 7 dove 1 è molto insoddisfatto e 7 è molto soddisfatto) sono tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (cioè usando la r di Pearson).

Test T Stats iQ

Quando gli utenti desiderano correlare una variabile binaria ad una variabile continua o discreta, Stats iQ esegue un t-test a due code (tutti i test statistici in Qualtrics sono a due code, ove applicabile) per valutare se uno dei due gruppi tende ad avere valori più alti dell’altro per la variabile continua/discreta. Stats iQ predefinisce il t-test di Welch, noto anche come t-test per variazioni non uguali; se le assunzioni di tale test non sono soddisfatte, Stats iQ raccomanda una versione classificata dello stesso test.

Ipotesi del test T di Welch

Stats iQ raccomanda il t-test di Welch (in prosieguo “t-test”) se diverse assunzioni relative alla conservazione dei dati:

  • La dimensione del campione di ciascun gruppo è superiore a 15 (e quindi il Teorema del limite centrale soddisfa il requisito dei dati distribuiti normalmente).
  • Esistono pochi o nessun valore fuori norma nei dati continui/discreti.

A differenza del test t leggermente più comune per variazioni uguali, il t-test di Welch non presuppone che le varianze dei due gruppi confrontati siano uguali. L’informatica moderna ha reso inutile questa ipotesi. Inoltre, ipotizzando variazioni uguali si ottengono risultati meno accurati quando le varianze non sono uguali, e i suoi risultati non sono più accurati quando le varianze sono effettivamente uguali (Ruxton, 2006).

Test t classificato

Quando si violano le ipotesi, il t-test potrebbe non essere più valido. In tal caso, Stats iQ raccomanda il t-test classificato; Stats iQ converte i dati (sostituisce i valori con il loro ordinamento in classifica) e quindi esegue lo stesso t-test di Welch su tali dati trasformati. Il test T classificato è robusto per i dati anomali e non distribuiti normalmente. La trasformazione di rango è un metodo consolidato per proteggersi dalla violazione delle assunzioni (un metodo “non parametrico”), ed è più comunemente visto nella differenza tra la correlazione di Pearson e Spearman (Conover e Iman, 1981). La trasformazione in classifica seguita dal t-test di Welch è simile in effetti al Mann-Whitney U Test, ma un po’ più efficiente (Ruxton, 2006; Zimmerman, 2012).

Si noti che mentre il test t per la parità dei mezzi dei due gruppi, il t-test classificato non verifica esplicitamente le differenze tra i mezzi dei gruppi o mediani. Piuttosto, verifica una tendenza generale di un gruppo ad avere valori più grandi rispetto all’altro.

Altre considerazioni per le prove T

  1. Con dimensioni del campione inferiori a 15, i dati possono ancora essere ispezionati visivamente per determinare se sono distribuiti normalmente; se lo è, i risultati dei test T non classificati sono ancora validi anche per campioni di piccole dimensioni. In pratica, questa valutazione può essere difficile da effettuare, quindi Stats iQ raccomanda test T classificati per impostazione predefinita per campioni di piccole dimensioni.
  2. Con dimensioni del campione più grandi, i valori fuori norma hanno meno probabilità di influire negativamente sui risultati. Stats iQ utilizza la “recinzione esterna” di Tukey per definire i valori fuori norma come punti superiori a 3 volte l’intervallo intra-quartile al di sopra del 75° o al di sotto del 25° punto percentile.
  3. Dati come “Alto livello di istruzione completato” o “Ordine di completamento in una maratona” sono inequivocabilmente ordinali. Sebbene le scale di Likert (come una scala da 1 a 7 dove 1 è molto insoddisfatto e 7 è molto soddisfatto) sono tecnicamente ordinali, è pratica comune nelle scienze sociali trattarle come se fossero continue (cioè con un test t non classificato).

Regressione

Esistono due tipi principali di esecuzione di regressione in Stats iQ. Se la variabile di output è una variabile numerica, Stats iQ eseguirà una regressione lineare. Se la variabile di output è una variabile di categoria, Stats iQ eseguirà una regressione logistica. L’output di default per una regressione lineare è una combinazione di Importanza relativa (in particolare, Pesi relativi di Johnson) e Piani minimi ordinari. Quando si esegue una regressione dei “minimi quadrati ordinari”, Stats iQ utilizza la variazione chiamata “M-estimation”, che è una tecnica più moderna che smorza l’effetto degli outlier, portando a risultati più accurati.

Per saperne di più su Regressione e importanza relativa.

FAQ

Molte delle pagine di questo sito sono state tradotte dall'originale in inglese mediante traduzione automatica. Sebbene in Qualtrics abbiamo profuso il massimo impegno per avere le migliori traduzioni automatiche possibili, queste non sono mai perfette. Il testo originale inglese è considerato la versione ufficiale, e qualsiasi discrepanza tra questo e le traduzioni automatiche non è legalmente vincolante.