Modelli supervisionati e non supervisionati per il Data Mining

22 de ene. de 2020 · 3m 52s
Modelli supervisionati e non supervisionati per il Data Mining
Descripción

Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati. I modelli “supervisionati”, che sono metodi che vengono applicati nel momento...

mostra más
Esistono due categorie di metodi per poter effettuare il processo di Data Mining, e cioè di estrazione dei dati.

I modelli “supervisionati”, che sono metodi che vengono applicati nel momento in cui nel data set di partenza esiste una variabile di raggruppamento, o etichetta, e i modelli “non supervisionati” che non hanno questa variabile di raggruppamento.

I supervisionati si dividono in altre due sottocategorie di metodi di estrazione e sono di “Classificazione” o di “Regressione” in base alla variabile di raggruppamento se di tipo cardinale o numerico quantitativo.

Nei metodi non supervisionati, quando non esiste la variabile di raggruppamento, abbiamo modelli di Clustering o modelli di Regole di associazione.

La fase preliminare di estrazione dei dati è il momento più critico in quanto è caratterizzata dalla preparazione del dato che passa da alcuni step prevalenti; l’acquisizione del dato, la fase di Parsing, quindi di conversione dei dati in una unica struttura e formato, la fase di controllo, che deve prendere in considerazione i casi mancanti e le anomalie.

Tra i modelli supervisionati di classificazione esiste il metodo KNN, o del vicino più prossimo, che si basa sulle caratteristiche vicine al dato considerato. Un oggetto è classificato in base alla maggioranza dei voti dei suoi vicini.

Il metodo degli alberi di classificazione, o decisione, che rappresenta un albero di classificatori con nodi interni binari, chiamati foglie, che dividono i campioni in classi di etichette omogenee, stratificando i dati.

I modelli supervisionati di regressione possono essere lineari, quindi una stima basata su una variabile dipendente e una o più variabili indipendenti, e a vettori di supporto, (Support Vector Machine) che costruisce nuovi esempi ad una delle classi possibili ottenendo un classificatore binario non probabilistico.

I principali ambiti di applicazione possono essere per classificare i comportamenti di acquisto, per una diagnosi medica, per la sicurezza web o per il rilevamento dello spam.

Invece i modelli non supervisionati, quindi senza variabile di raggruppamento, vengono utilizzati per la sentiment analysis, per analizzare l’e-commerce o per valutare i dati in store.

L’esempio più calzante è il modello basket analysis che permette di analizzare le abitudini di acquisto dei clienti identificando le relazioni esistenti tra prodotti acquistati e differenti consumatori.

Anche il Clustering figura tra i metodi non supervisionati, e consiste nel raggruppare dati omogenei basandosi sulla somiglianza, e quindi la distanza tra di loro, in uno spazio multidimensionale.

In ultimo ci sono metodi di text mining che si applicano a testi non strutturati, estraendo informazioni a valore aggiunto convertendoli in linguaggio strutturato e formale.

Si utilizzano per pagine web, email, social, agenzie stampa, chat ecc..

in questi casi i campi di applicazione sono la brand reputation, la sentiment analysis, la seo e il web marketing.
mostra menos
Información
Autor Valerio Maria Murgolo
Página web -
Etiquetas

Parece que no tienes ningún episodio activo

Echa un ojo al catálogo de Spreaker para descubrir nuevos contenidos.

Actual

Portada del podcast

Parece que no tienes ningún episodio en cola

Echa un ojo al catálogo de Spreaker para descubrir nuevos contenidos.

Siguiente

Portada del episodio Portada del episodio

Cuánto silencio hay aquí...

¡Es hora de descubrir nuevos episodios!

Descubre
Tu librería
Busca