Come calcolare l'imputazione

In statistica, l'imputazione è la sostituzione di qualche valore per un punto dati mancante. I dati mancanti possono sorgere, ad esempio, nelle indagini in cui alcune domande rimangono senza risposta. Metodi statistici più standard richiedono campi di ogni record deve essere compilata. Un altro motivo per l'imputazione è che, a meno che le celle vuote sono pieni di dati, molti pacchetti statistici, per impostazione predefinita, eliminerà il record (chiamato eliminazione listwise o casewise).

Istruzioni

Marginale e condizionale significa imputazione

• Trovare il valore medio della variabile indipendente che ha i dati mancanti.

• Inserire questa media in ogni cella vuota in cui tale variabile indipendente non è stato segnalato.

• Eseguire l'eliminazione listwise per calcolare imputazione condizionale.

• Regredire tutte le variabili sulla variabile con i dati mancanti utilizzando il software statistico.

• Utilizzare le relazioni da tale regressione per stimare quali dovrebbero essere i dati mancanti. Così se le variabili indipendenti sono x1, X2 e X3 e X1 sono dati mancanti, quindi utilizzare i valori di X2 e X3 per prevedere il valore mancante X 1 per ogni record con mancante X 1.

Doppia imputazione

• Eseguire l'eliminazione listwise.

• Regredire tutte le variabili sulla variabile con i dati mancanti utilizzando il software statistico.

• Calcolare la deviazione standard dei residui della variabile dei dati mancanti.

• Utilizzare le relazioni da tale regressione per stimare quali dovrebbero essere i dati mancanti.

• Disegnare in modo casuale un numero, "u," da una distribuzione normale standard per ogni imputazione.Moltiplicare la deviazione standard dal passaggio 3 di "u" e aggiungere il prodotto all'imputazione per la quale è stato disegnato "u". Eseguire questa operazione per ogni imputazione, con un nuovo "u" per ciascuno di essi. Questo aggiunge un elemento casuale le imputazioni, affrontando la falsa correlazione tra la variabile di dati mancanti e la variabile dipendente che imputando creato.

Consigli & Avvertenze

  • SAS ha una procedura chiamata MI che fa più imputazione. Il metodo di massima verosimiglianza offre anche un trattamento per i dati mancanti, ma doppia imputazione ha tutti i suoi vantaggi e non richiede la conoscenza delle funzioni di distribuzione di probabilità.
  • Eliminazione listwise può portare a risultati parziale se non dichiaranti correla con un certo valore variabile. Imputazione di media marginale è conosciuto per produrre stime distorte di varianza e covarianza e pertanto deve essere evitato. Imputazione di media condizionale, perché esso non contribuisce alla casualità degli errori, conduce ad una sottostima degli errori standard. Ciò a sua volta conduce ad un sopravvalutato delle statistiche test, ad esempio il rapporto di F, che non misura la variabilità come sarebbe se i dati mancanti non erano mancanti. Pertanto p-valori finiscono sottovalutato, e l'ipotesi di null è troppo facilmente respinto. Doppia imputazione risolve questo problema.