Algoritmo Decision Trees nel Data Mining

Un albero di decisione è un metodo statistico di computer ad alta intensità per categorizzare gli elementi tra cui cose come persone, aziende, siti Web o qualsiasi altro basata sulla variabili. È particolarmente utile quando sono presenti un gran numero di variabili, che possono interagire statisticamente.

Crescere un albero

Un albero di decisione inizia con tutti i soggetti in un gruppo. Il programma quindi passa attraverso ogni possibile divisione di ogni variabile, per trovare il modo migliore per dividere il nodo in due nodi. Ciascuno di tali nodi è quindi divisa di nuovo e così via, fino a quando non sono soddisfatti i criteri per l'arresto. Questi criteri possono essere impostati dall'utente e include tali cose come la dimensione di un nodo, la purezza di un nodo, dimensione dei nodi figlio e altri criteri.

Pota un albero

La ricerca mostra che è meglio crescere un albero di grandi dimensioni e quindi potare. Esistono vari metodi di potatura, ma tutti sono basati sull'idea di ottenere un albero che è stabile; uno che funziona non solo con l'esempio che avete, ma su altri campioni pure.

Cross-validazione di un albero

Idealmente, si avrà abbastanza dati per crescere e potare un albero da parte dei tuoi dati e poi testarlo su un'altra parte dei tuoi dati. Se questo non è possibile, ci sono altri metodi di cross-validazione alberi.

Vantaggi

Uno dei vantaggi di alberi di decisione è che l'output è facile da spiegare alla gente senza formazione statistica. Un altro vantaggio è che essi consentono di guardare alle interazioni che si verificano in solo alcune parti dei dati.