Nel precedente articolo sull’Internet of Things abbiamo parlato di come il Machine Learning, tramite le differenti famiglie di algoritmi esistenti, sia in grado di trasformare un Data Lake di dati IoT raccolti dal campo in valore aggiunto per il processo.

Le soluzioni derivanti da questo approccio sono molteplici, ad esempio:

analisi di pattern comportamentali per individuare situazioni anomale o, al contrario, ottimali;
strumenti di integrazione al monitoraggio real-time per predizione di eventi;
supporto decisionale tramite analisi prescrittiva.

La fase di Data Exploration, primo passo in ogni progetto di Data Science, permette di selezionare, all’interno della variegata sorgente dati costruita con la raccolta dei dati IoT, il perimetro del processo a cui si è interessati secondo i risultati da ottenere.

A questo punto, è necessario preparare il dataset a partire dalla grande mole di dati IoT, storicizzati al massimo livello di dettaglio con la frequenza di campionamento dei sensori da cui sono raccolti.

Data Wrangling di dati IoT

La fase appena introdotta può assumere vari nomi, tra cui il più comune Data Wrangling, o in italiano aggregazione dei dati: questa delicata fase è la base per raggiungere risultati significativi, e il suo approccio varia in base all’obiettivo prefissato.

Questa fase può essere vista come un accurato lavoro fotografico: partendo da un panorama completo, è necessario trovare il set-up ottimale per immortalare la scena nei suoi punti salienti, esaltandone le caratteristiche grafiche.

Partendo dai dati IoT al massimo dettaglio, potrebbe essere vincente effettuare le aggregazioni:

su asse temporale definito, utile ad esempio se si vuole realizzare un algoritmo di predizione on-line durante il processo, come in un sistema di Manutenzione Predittiva;
per prodotto o lotto di prodotti, necessario ad esempio per correlare i dati che ne descrivono il processo produttivo con un riscontro qualitativo, approccio spesso utilizzato per la Predictive Quality Analytics.

A questo punto si può operare da fotografi: utilizzando funzioni aggreganti statistiche o matematiche, anche studiate ad hoc per il dominio, si può catturare un’istantanea del processo in grado di riassumere gli aspetti chiave da cui l’algoritmo di Machine Learning scelto potrà estrarre conoscenza e valore.

Come ogni fotografo dell’era digitale, scattata una buona fotografia si passa in post-produzione per eliminare quel poco di rumore che non la rende perfetta: questa fase, nella preparazione di un dataset per un algoritmo di Machine Learning, è il Data Cleaning (o Cleansing).

Di questo altrettanto delicato e importante procedimento sarà argomento il prossimo articolo della nostra serie dedicata al Machine Learning nel contesto dell’Internet Of Things.

26 Novembre 2020

Internet of Things: come preparare i dati per un algoritmo di Machine Learning

Data Wrangling di dati IoT