Come utilizzare il fattore di inflazione della varianza in campioni di grandi dimensioni

Come utilizzare il fattore di inflazione della varianza in campioni di grandi dimensioni

Il fattore di inflazione della varianza è una misura della collinearità nella regressione multipla. Regressione multipla è una tecnica statistica per esaminare la relazione tra una variabile dipendente quantitativa e più di una variabile indipendente. La collinearità si verifica quando le variabili indipendenti sono fortemente correlate tra loro. Ad esempio, se eravamo interessati al rapporto fra il corpo di varie dimensioni (ad esempio lunghezza gamba, braccio, spalla larghezza e così via) e del peso corporeo, è probabile che ci sarebbe stata la collinearità tra le variabili indipendenti. Dimensione del campione non è rilevante per il calcolo dei fattori di inflazione di varianza. C'è un VIF per ogni variabile indipendente.

Istruzioni

• Calcolare i fattori di inflazione di varianza per la regressione. In SAS, è possibile farlo con l'opzione VIF l'istruzione di modello in PROC REG. In R, si può fare con la funzione di vif nel pacchetto auto, che è disponibile da CRAN. Se il vostro pacchetto di statistiche non calcola VIF, può essere computato come 1 / (1 - R(k)^2), dove R (k) ^ 2 è la R ^ 2 valore dalla regressione della variabile indipendente kth su altre variabili indipendenti.

• Valutare l'entità della collinearità. Il VIF per variabile k è una misura di quanto la varianza del coefficiente di questa variabile nella regressione originale è gonfiata. VIFs oltre 4 sono possibilmente problematico; VIFs oltre 10 sono più sicuramente problematico.

• Trovare la fonte della collinearità, se esiste. Un modo per farlo è quello di guardare le correlazioni della variabile problematica con le altre variabili indipendenti e vedere quale è più alto.

• Decidere che cosa fare circa la collinearità. Opzioni includono rimuovendo variabili, facendo uso di regressione di minimi quadrati parziali o utilizzando la regressione ridge. La scelta dipenderà dalle circostanze. Se una variabile non è la chiave per l'indagine, la rimozione può essere buona. Se le variabili non hanno alcun significato sostanziale forte, minimi quadrati parziali è una buona scelta. Se tutte le variabili sono importanti, regressione ridge è una buona scelta.