Grazie ai progressi tecnologici effettuati negli ultimi anni, è diventato sempre più facile il processo di raccolta dei dati (facendo riferimento a qualsiasi tipo di dato commerciale, scientifico, geografico, ecc…).

I computer e in generale i dispositivi tecnologici attuali sono diventati più economici rispetto al passato e questo consente di elaborare più dati. Infatti, il nuovo mantra è il seguente: “raccogli tutti i dati che puoi, quando e dove possibile”.

A cosa servono i dati raccolti?

Possono essere utilizzati già per scopi noti oppure collezionati e utilizzati in un secondo momento se necessari. Ad esempio, nell’ambito del commercio elettronico, avere a disposizione dei dati da analizzare permette di avere un vantaggio competitivo rispetto a tutte le altre aziende, in quanto questo rende possibile personalizzare un determinato prodotto e renderlo perfettamente adatto alle richieste specifiche dei propri clienti.

Possono essere utilizzati anche per scopi scientifici. In questo caso i dati vengono raccolti con l’ausilio di sensori remoti su satelliti o telescopi che scansionano il cielo.

Cos’è il Data Mining

Nella maggior parte dei casi, tanti dei dati collezionati non vengono nemmeno analizzati, proprio per il fatto che sono troppi e un’eventuale analisi se non strettamente necessaria potrebbe richiedere anche svariate settimane per produrre un risultato utile.

A causa di queste enormi quantità di dati è stato introdotto il data mining, il quale è una fase del processo di knowledge discovery (spiegato a breve). Sostanzialmente, il suo scopo è quello di scoprire delle informazioni utili, non rilevabili in altri modi, a partire da un certo set di dati di analisi.

Il data mining è stato introdotto per risolvere le inadeguatezze degli strumenti tradizionali. Infatti, non rientrano in questo settore tutte le tecniche tradizionali per lavorare su basi di dati.

Le operazioni che possono essere eseguite dal data mining, non sono consentite dagli strumenti tradizionali, i quali non sono adatti a lavorare con dati:

  • di grandi dimensioni (quindi, tanti dati);
  • di elevata dimensionalità (con molti attributi);
  • eterogenei (per la presenza di tabelle, testo, xml, ecc… derivanti da diverse sorgenti);
  • distribuiti (considerando che si tratta di quantità enormi di dati, questi spesso sono distribuiti su delle macchine connesse in rete).

Per esempio, cercare un numero di telefono di una persona all’interno di un data base non significa fare data mining, perché si tratta di un’informazione esplicita. Mentre, scoprire quali sono i cognomi più comuni in alcune aree geografiche lo è.

Il data mining si ispira a diverse discipline e tecniche per estrarre informazioni significative dai dati, come ad esempio il machine learning, l’intelligenza artificiale, la statistica e la visualizzazione dei dati.

Che cos’è la knowledge discovery?

Si tratta dell’applicazione di una serie di fasi che a partire da un set di dati, produce dei dati interpretabili dagli esperti del dominio. Tra le varie fasi compare anche quella di Data Mining.

Di seguito vediamo l’elenco delle varie fasi:

  • Selection: vengono selezionati i dati di interesse da un grande set;
  • Preprocessing: serve per rendere i dati omogenei, consistenti e completi. Infatti, a causa delle diverse sorgenti da cui i dati vengono raccolti, questi potrebbero non avere lo stesso formato, perciò prima di essere trasferiti alla fase successiva devono essere convertiti. Oppure, in alternativa potrebbe esserci del rumore da eliminare nei dati o ancora dei dati mancanti;
  • Transformation: ad esempio, i dati continui vengono trasformati in scalari. In questa fase viene ridotto il numero di variabili da sottoporre all’analisi successiva;
  • Data Mining: viene stabilito il compito del processo di data mining (quindi se si tratta di classificazione, clustering, regressione, ecc…) e tramite appositi algoritmi produce dei pattern, ovvero dei modelli che permettono di esprimere delle caratteristiche ricorrenti nei dati in analisi. Un pattern deve essere valido (con un certo grado di confidenza), comprensibile dall’utente, sconosciuto e utile, altrimenti non avrebbe senso;
  • Interpretation/Evaluation: la fase in cui gli esperti del dominio danno interpretazione ai dati ottenuti. Nel caso in cui i risultati non siano quelli sperati si riparte con una nuova iterazione dalla fase iniziale.

Attività di Data Mining

Il data mining si presta bene a diversi tipi di attività che variano in base al tipo di pattern. Innanzitutto, bisogna fare la distinzione principale tra attività predittive e di descrizione.

Nelle attività predittive si ha lo scopo di prevenire il valore di classe di un oggetto sconosciuto. Rientrano in questa categoria:

  • classificazione;
  • regressione;
  • anomaly detection.

In quelle descrittive, invece, bisogna trovare dei pattern interpretabili dall’uomo che descrivano i dati. In questa categoria ci sono:

  • clustering;
  • regole associative;
  • pattern sequenziali.

Attenzione perchè i sistemi di predizione sono anche descrittivi. Questo è necessario quando è necessario avere un modello che descriva i dati per essere in grado di predirli.

Algoritmi di data mining

Quali sono gli algoritmi di data mining più diffusi? Ecco l’elenco:

  • Decision Tree
  • Random Forest
  • K-means
  • Regressione lineare
  • Clustering gerarchico

Data Mining vs Big Data

Spesso i due concetti vengono usati allo stesso modo. In realtà con il termine Big Data si fa riferimento solo a grandi quantità di dati grezzi, mentre il Data Mining è una fase cruciale del processo di scoperta della conoscenza che mira alla realizzazione di pattern per estrarre informazioni altrimenti sconosciute nei dati presi in analisi. Sostanzialmente, il processo di data mining viene applicato ai big data.

Come studiare Data Mining

Se sei alla ricerca di qualche libro utile per imparare di più sul data mining, consulta questa lista:

Vantaggi del data mining

Ovviamente il data mining, porta alla soluzione di problemi rilevanti come ad esempio:

  • migliorare le cure sanitarie e ridurre i costi;
  • prevedere l’impatto del cambio del clima;
  • trovare fonti alternative di energia rinnovabile;
  • prevedere il comportamento dei clienti;
  • rilevare delle transazioni fraudolente;
  • prevedere delle epidemie imminenti.
Se ti va di sostenere il blog, unisciti al canale Telegram dove puoi trovare un sacco di offerte sulla tecnologia interessanti, con sconti fino all'80%. Manchi solo tu: unisciti subito al canale per non perderti le prossime occasioni!
Categorie: informatica