Spark & Pentaho, un binomio perfetto per l'elaborazione dei Big Data

Spark & Pentaho, un binomio perfetto per l'elaborazione dei Big Data

I dati, la grande ricchezza 3.0

I dati raccolti grazie alle attività online sono una vera e propria ricchezza: poter analizzare ed elaborare pattern comportamentali dei clienti permette di creare nuovi tunnel di vendita, migliorare la customer journey e inventare nuove promozioni su misura destinate ad avere un buon tasso di successo. Insomma, l'enorme quantità di informazioni accumulabili in forma aggregata (detti, più semplicemente, Big Data) sono una vera e propria ricchezza che, però, deve essere trattata adeguatamente. In effetti, senza un'accurata fase di analisi tutte queste informazioni potrebbero rivelarsi inutili, se non controproducenti: in un enorme mole di dati è facile perdersi, e creare correlazioni fallaci di causa-effetto.

Con il crescere della quantità di informazioni archiviabili cresce, naturalmente, anche la difficoltà di analisi: per ovviare a questo problema sono stati creati software sempre più sofisticati ed "intelligenti", che guidano l'utente ad una più semplice e corretta interpretazione dei vari pattern e delle varie correlazioni esistenti tra i dati raccolti. Il più famoso di questi software è sicuramente Pentaho, sviluppato dall'omonima società appartenente alla holding Hitachi.

Pentaho è, sostanzialmente, un software di business intelligence capace di trattare i dati, organizzarli e restituirli in una forma coerente e leggibile all'utente, un'attività ad oggi imprescindibile per chiunque desideri il successo della propria azienda. Questo software, caratterizzato da un'interfaccia decisamente semplice ed intuitiva se paragonata a quella dei principali competitor, ha naturalmente riscosso un successo immediato, e recentemente è stata rilasciata una nuova versione del software, ancora più semplice da integrare con architetture di stoccaggio con motori di analisi e dati complessi come Spark.

 

Spark: un motore di analisi adatto alle esigenze di oggi

Spark è, in buona sostanza, un motore di analisi e ricerca dei dati capace di ottime performance. La struttura di questo software permette di ricercare e distribuire grandi moli di dati ai vari cluster, ossia a vari PC connessi alla rete, e sfruttare la loro potenza di calcolo per effettuare le analisi e le riorganizzazioni necessarie in contemporanea, utilizzando i vari PC in rete come se fosse un sistema di calcolo in parallelo.

Come se non bastasse, questo software è creato secondo la filosofia "in-memory": i dati vengono stoccati temporaneamente sulla RAM e non sul disco rigido. Il risultato della combinazione tra la tecnologia "in-memory" e del sistema di analisi in parallelo? È semplice: una velocità di calcolo assolutamente straordinaria, e tempi di risposta brevissimi. Ed è proprio per questo motivo e per le ottime performance che Pentaho ha deciso di "adottare" Spark, rendendone meno macchinoso l'utilizzo e l'integrazione con Pentaho stesso.

Spark & Pentaho, un binomio perfetto tra velocità e accuratezza

Uno dei grandi problemi di Spark - che ne aveva limitato la diffusione - era la necessità di riscrivere completamente i dati secondo le logiche di Spark stesso, un'operazione lunga e difficoltosa che prevedeva anche lunghe fasi di debugging. Come già anticipato, Pentaho è riuscita a creare un software flessibile e perfettamente adattabile sia a Spark che a tutti gli altri motori di analisi. Utilizzando Pentaho, sarà possibile progettare e scrivere solo una volta l'architettura di stoccaggio dei dati senza modificarla successivamente, indipendentemente dal motore di analisi utilizzato. In buona sostanza, ad oggi con Pentaho sarà possibile integrare Spark, saltando la fase di debugging e riscrittura dell'architettura dei dati, ed ottenendo in poco tempo un sistema perfettamente funzionante ed efficiente di analisi e visualizzazione dei dati.

Insomma, il binomio Spark & Pentaho, grazie alle sue particolari caratteristiche di rapidità, affidabilità e semplicità d'utilizzo, è ormai destinato a segnare la storia nel campo dell'analisi dei dati complessi, rendendo più snella la BI e migliorando le performance ottenibili.

Per visualizzare o aggiungere un commento, accedi

Altri articoli di Moreno Mazzoni

Altre pagine consultate