Il data mining rientra nelle fasi di knowledge discovery (ovvero il processo che porta alla scoperta di nuova conoscenza dai dati altrimenti sconosciuta).

In particolare, dopo aver ricevuto in ingresso dei dati (opportunamente selezionati, pre-processati e trasformati) produce in output tramite opportuni algoritmi un modello che prende il nome di pattern.

Cos’è un pattern

Un pattern ha lo scopo di rappresentare le caratteristiche che si manifestano in modo ricorrente all’interno dei dati in analisi. Ad esempio, analizzando un dataset di transazioni è possibile identificare gli oggetti che vengono acquistati insieme in diversi ordini. Questo, ovviamente, porta grandi vantaggi al reparto marketing.

Un pattern deve essere:

  • valido sui dati con un certo grado di confidenza, deve essere logico e plausibile all’interno del contesto in considerazione;
  • comprensibile per gli utenti, in modo tale che gli umani possano descrivere il suo significato;
  • precedentemente sconosciuto e potenzialmente utile altrimenti non avrebbe alcun senso in quanto non porta a nuova conoscenza.

Quali sono i tipi di pattern in data mining?

In base al tipo di task di data mining che si vuole eseguire, esistono i seguenti tipi di pattern:

  • Classificatori: a partire da alcuni attributi di classe già noti, sulla base di questi determinano la classe di nuovi oggetti, la quale è ancora sconosciuta. Un albero decisionale è un classificatore;
  • Regole associative: tramite implicazione logiche, queste permettono di determinare gruppi di oggetti con caratteristiche affini;
  • Clustering: in questo tipo di pattern, le classi non sono stabilite a priori, quindi inizialmente sono sconosciute. In pratica, vengono analizzati gli attributi dei diversi elementi dell’insieme e vengono raggruppati in modo omogeneo sulla base di caratteristiche simili;
  • Sequenziali: ne sono un esempio le serie temporali che individuano il ripetersi di eventi nel tempo, sostanzialmente indicano la successione di eventi. Ad esempio analizzando il comportamento degli utenti su un sito web è possibile prevedere le prossime azioni;
  • Anomaly detection: si tratta di situazioni completamente anormali. Come ad esempio dei pattern che riconoscono delle transazioni fraudolente;
  • Regressione: in questo caso, vengono individuate le relazioni tra variabili dipendenti e indipendenti. Sulla base di dati storici prevedere le tendenze future.