Il machine learning si può classificare in:
- supervisionato, dati etichettati
- non supervisionato, dati non etichettati
Nell’approccio supervisionato il modello viene addestrato su osservazioni con etichetta. Infatti, l’obiettivo è quello di fare previsioni accurate su nuovi dati ancora non etichettati. Considerando che il processo di addestramento è guidato dalle etichette di output, si dice supervisionato. La classificazione e la regressione sono un esempio di apprendimento supervisionato.
Nell’approccio non supervisionato, invece, il dataset non contiene dati etichettati. Il modello cerca di identificare un pattern ricorrente senza l’aiuto di informazioni esterne (come le etichette), proprio per questo motivo è più complesso rispetto a quello supervisionato. È non supervisionato perché deve lavorare senza etichette guida. Il clustering (DBSCAN utilizza un approccio non supervisionato) ne è un esempio.
Anche le GAN rientrano nell’approccio non supervisionato perché di fatto l’obiettivo è quello di generare nuovi dati. Esistono delle varianti di reti generative che possono essere combinate con tecniche di apprendimento supervisionato, come nel caso delle GAN condizionali (cGAN). Questo permette di generare dati corrispondenti a determinate categorie. Ad esempio se disponi di un dataset di volti etichettati per genere (uomo o donna), puoi addestrare una cGan in modo che il modello apprenda non solo a generare volti realistici in generale, ma anche a controllare la generazione di volti in base all’attributo indicato (nel caso specifico il genere).