Esplorare i dati: da dove partire e come intercettare i segnali
Vorrei riprendere in questo spazio una serie di post che pubblicai tempo addietro nel mio blog personale.
Avevo immaginato inizialmente che la serie dovesse contenere otto post con l'obiettivo di delineare un framework utile a chiunque per analizzare i dati in proprio possesso e, in particolare, al consulente di BI di costruire, anche senza aver ricevuto particolari requisiti, un analytics o un dashboard.
Nulla di eccessivamente complicato, ma sufficiente per avere i giusti strumenti per la comprensione delle informazioni in proprio possesso, quando queste non sono già state pre elaborate da altri e c'è tutto un mondo da scoprire.
Purtroppo impegni familiari (in questo caso dovrei dire per fortuna) e lavorativi non mi hanno consentito di completare la serie, ma mi riprometto di farlo ora.
Iniziamo.
Cosa fare quando si è di fronte ad un set di dati relativo ad uno o più processi aziendali e ci viene chiesto di esplorarlo?
Da dove cominciare la nostra analisi e come costruire poi un analytics che aiuti altri a trovare segnali, relazioni prima non note o un’aiuto per prendere una decisione?
Una volta compresa la realtà dei nostri processi aziendali come costruire poi un dashboard che ci avvisi quando qualcosa non va come dovrebbe?
Con i prossimi post vorrei in un primo momento parlare di come impostare l’esplorazione dei dati e le varie “viste” possibili utili a comprendere la realtà, poi trattare di come mettere insieme le differenti viste per creare un analytics e, infine, avendo compreso la norma, di come creare un dashboard che ci segnali eventuali anomalie nei nostri processi aziendali.
Prima di fare tutto questo è necessario un passo indietro. Credo sia meglio partire da basi comuni, parlare la stessa lingua, per comprendersi ed evitare fraintendimenti.
Alcune definizioni
"Dati. I dati rappresentano in generale una codifica strutturata delle singole entità primarie e delle transazioni che coinvolgono due o più entità primarie. Ad esempio, per un’azienda della grande distribuzione (GDO) i dati si riferiscono alle entità primarie, quali i clienti, i punti vendita, gli articoli, mentre le transazioni commericiali di vendita sono descritte dagli scontrini d’acquisto.
Informazioni. Le informazioni costituiscono il risultato di operazioni di estrazione e di elaborazione compiute a partire dai dati e sono dotate di significato per chi le riceve in uno specifico contesto.
Per il responsabile commerciale di un’azienda della GDO, la percentuale di scontrini che superano l’importo totale di 100 € nel corso di una settimana, oppure il numero di possessori di una carta-fedeltà che hanno ridotto di più del 50% l’importo mensile d’acquisto negli ultimi 3 mesi, rappresentano esempi di informazioni, estratte a partire dai dati archiviati.
Conoscenza. Le informazioni si trasformano in conoscenza se vengono utilizzate per prendere delle decisioni e per sviluppare le azioni conseguenti. Possiamo quindi affermare che la conoscenza è costituita da informazioni inserite in uno specifico contesto, arricchite dall’esperienza e dalle competenze dei decision maker per affrontare e risolvere problemi complessi. Per un’azienda della GDO l’analisi delle vendite può indicare che nella zona in cui risiedono dei clienti che hanno ridotto gli importi d’acquisto opera da poco tempo anche un punto vendita di un’impresa concorrente. La conoscenza così ricavata può originare delle azioni rivolte a risolvere il problema evidenziato, ad esempio, mediante un servizio gratuito di consegna a domicilio per i clienti della zona identificata." *
Tornando alle domande iniziali, prima di esplorare i dati di un’impresa o di un’organizzazione, ci si deve necessariamente domandare quale sia la sua ragione d’essere: cosa fa, come lo fa e perchè fa quello che fa.
- Quali elementi (entità primarie – ad esempio prodotti, servizi) caratterizzano l’impresa e la sua mission?
- Quali processi rivelano come l’impresa fa quello che fa?
- Quali principi e valori spiegano perchè l’impresa fa quello che fa?
Di un’impresa si deve obbligatoriamente capirne gli elementi principali e caratterizzanti (il cosa), i processi (il come) e i suoi principi (il perchè), prima di cominciare a capirne quali siano i dati e le informazioni che ne rivelano le performance e il suo stato di benessere.
Una volta compreso ciò, come procedere nell’analisi dei dati?
Nel 1996 Ben Shneirderman, un pionere ne campo della information visualization e human-computer interaction, propose una semplice formula per l’esplorazione e l’analisi dei dati:
Overview first, zoom and filter, then details-on-demand **
E’ importante sottolineare che una visione d’insieme (overview) fornisce più di una semplice visione riassuntiva; fornisce il contesto necessario per capire i dettagli di un set di dati. Eventuali segnali o anomalie, possono essere captate solo quando le informazioni sono confrontate con altre considerate rilevanti. In altre parole nessuna informazione ha significato in se, ma solo se comparata con un’altra: se considerata cioè nel suo contesto.
Compresa l’importanza del contesto viene da se che il modo migliore per esplorare un determinato set di dati è analizzarne le variazioni o differenze con il contesto e le relazioni in esso presenti.
Ma nel concreto, variazioni e relazioni tra cosa?
Ancora un passo indietro, scusate.
I dati possono essere di due tipi: categorici (ad esempio i “prodotti” o i “clienti”) o quantitativi (misure espresse in formato numerico, come il fatturato, la pressione sanguigna ecc.).
Per esaminare un set di dati dobbiamo quindi esaminarne le variazioni all’interno delle categorie e delle misure, le relazioni tra categorie e tra le categorie e le misure.
Di seguito un esempio di categorie e di misure tipicamente importanti per una funzione vendite (qua l’importanza di conoscere il business).
Se il senso del nostro set di dati va, come detto, ricercato nelle differenze all’interno delle categorie, nella variabilità delle misure e nelle relazioni tra questi elementi, queste variazioni-differenze e relazioni sono generalmente di sei tipi:
1 – Variazioni-differenze all’interno delle categorie.
Come gli elementi di categorie considerate importanti (clienti, prodotti…) si relazionano gli uni agli altri in termini di rilevanza (rilevanza che è data da misure e/o KPI), il ranking, l’ordine di questi elementi all’interno della categoria e la loro percentuale di contribuzione sul totale della categoria (part-to-whole relationships).
2 – Variabilità delle misure.
Come il valore di misure considerate importanti è distribuito all’interno del suo range di valori possibili (distribution relationships).
Due categorie come lo SPAZIO e il TEMPO meritano particolare attenzione per cui altre analisi da considerare sono:
3 – Variazioni nello spazio.
Come determinate misure sono distribuite nello spazio e come sono localizzate tra loro. (spatial relationships)
4 – Variazioni nel tempo.
Come una determinata misura cambia nel tempo? (time-series relationships)
5 – Relazioni tra le misure.
Come le misure si comportano in relazione le une alle altre? (correlazioni)
6 – Relazioni tra le categorie.
Come le categorie sono relazionate le une alle altre? Ovviamente sempre relazioni mediate da misure (inter-category relationships).
Nei prossimi post riprenderò e approfondirò le sei tipologie di analisi, metterò tutti gli argomenti insieme per creare un analytics ed, infine, capita la mia realtà di riferimento, vedremo di come intercettare eventuali segnali di possibili anomalie.
* Vercellis (2006). “Business intelligence. Modelli matematici e sistemi per le decisioni”
** Shneiderman (1996). “The Eyes Have it: A Task by Data Type Taxonomy forInformation Visualizations.” Proceedings of the 1996 IEEE Symposium on Visual Languages.