Gli svantaggi della regressione lineare

Regressione lineare è un metodo statistico per esaminare la relazione tra una variabile dipendente e una o più variabili indipendenti. La variabile dipendente deve essere continua (cioè, in grado di assumere qualsiasi valore) o almeno vicino a continuo. Le variabili indipendenti possono essere di qualsiasi tipo. Anche se la regressione non può mostrare al nesso di causalità di per sé, la variabile dipendente è solitamente risentita le variabili indipendenti.

Guarda solo relazioni lineari

Per sua natura, regressione lineare guarda solo relazioni lineari tra variabili dipendenti ed indipendenti. Cioè, si presuppone che esiste una relazione lineare tra di loro. A volte questo non è corretto. Ad esempio, il rapporto tra reddito ed età è curvo, cioè, reddito tende a salire nelle prime parti della vita adulta, appiattiscono in età adulta successiva e declinare dopo persone in pensione. Si può dire se questo è un problema guardando rappresentazioni grafiche delle relazioni.

Guarda solo la media della variabile dipendente

Regressione lineare esamina un rapporto tra la media della variabile dipendente e le variabili indipendenti. Ad esempio, se si esamina il rapporto tra il peso di nascita di infanti e materne caratteristiche come l'età, regressione lineare esaminerà il peso medio dei bambini nati da madri di età diverse. Tuttavia, a volte è necessario guardare agli estremi della variabile dipendente, ad esempio, i bambini sono a rischio quando i pesi sono bassi, quindi si vorrebbe guardare gli estremi in questo esempio.

Proprio come la media non è una descrizione completa di una singola variabile, regressione lineare non è una descrizione completa delle relazioni tra variabili. Si può affrontare questo problema utilizzando quantile regressione.

Sensibile ai valori erratici

Valori erratici sono dati che sono sorprendenti. Valori anomali possono essere monovariante (basato su una variabile) o a più variabili. Se sta guardando di età e reddito, outlier univariati sarebbe cose come una persona che è di 118 anni, o uno che ha fatto $ 12 milioni l'anno scorso. Un outlier multivariato sarebbe un 18-anno-vecchio che ha fatto $100.000. In questo caso, né l'età né il reddito è molto estremo, ma pochissime persone 18-year-old fare molto denaro.

Outlier possono avere enormi ripercussioni sulla regressione. Si può affrontare questo problema richiedendo influenza le statistiche dal tuo software statistico.

I dati devono essere indipendenti

Regressione lineare si presuppone che i dati sono indipendenti. Ciò significa che i punteggi di un soggetto (ad esempio di una persona) non hanno nulla a che fare con quelli di un'altra. Questo è spesso, ma non sempre, sensibile. Due casi comuni dove non ha senso sono eseguendo il clustering nello spazio e nel tempo.

Un classico esempio di clustering nello spazio è punteggi dei test studente, quando avete studenti provenienti da varie classi, classi, scuole e distretti scolastici. Studenti della stessa classe tendono ad essere simili in molti modi, ad esempio, vengono spesso dai quartieri stessi, hanno gli stessi docenti, ecc. Così, non sono indipendenti.

Esempi di clustering in tempo sono eventuali studi dove si misurano gli stessi soggetti più volte. Ad esempio, in uno studio di dieta e peso, si potrebbe misurare ogni persona più volte. Questi dati non sono indipendenti, perché ciò che una persona pesa in una sola occasione è relativo a ciò che lui o lei pesa in altre occasioni. Un modo per affrontare questo è con modelli multilevel.