Sempre più organizzazioni stanno mettendo, con grande entusiasmo, i dati al centro delle proprie attività impostando e mettendo in produzione iniziative in ottica data centered.
Sebbene ci sia questa notevole spinta, quasi un terzo dei leader delle direzioni Data & Analytics intervistati da Gartner ha identificato che la barriera più significativa nella realizzazione di questo nuovo approccio è la difficoltà di distribuire i dati all’interno dei processi e delle applicazioni aziendali esistenti.
Uno dei fattori più importanti è l’incapacità di supportare la transizione dalla sperimentazione alla produzione. Una sfida culturale prima che tecnica.
In molte organizzazioni, infatti, non c’è un ruolo chiaramente identificato il cui obiettivo sia la valorizzazione del dato, che va dalla messa in produzione delle analisi, al garantire conformità con la governance dei dati e ovviamente sia attento alla sicurezza dei dati.
È infatti sempre più complesso rendere i dati, provenienti dall’interno e dall’esterno dell’organizzazione, disponibili e pronti per l’analisi.
Vanno infatti considerati tutti i task coinvolti nel costruire le corrette pipeline. Si parte dal trovare la corretta fonte dati, per poi costruire la pipeline vera e propria: un processo dispendioso che vede numerose competenze necessarie, data integrazione, modellazione, ottimizzazione, qualità, governance, security e la possibilità di poter riutilizzare le pipeline.
La data engineering è la risposta a questa esigenza.
Essa rappresenta un tassello fondamentale, un punto di partenza ormai imprescindibile per garantire il successo dei progetti di data analytics e per tutto lo sfruttamento del dato aziendale, indipendentemente dalle risorse messe in campo.
In questo e nei prossimi articoli, andremo a spiegare cos’è la data engineering, quali professionalità coinvolge e perché deve essere messo in atto quanto prima.
Il Gartner Data Science Team Survey 2018 mostra che per i progetti di data science, quasi la metà del tempo viene impiegato per le attività antecedenti allo sviluppo dei modelli, come la raccolta dei dati e la loro preparazione.
Cos’è la data engineering
Cercando nel web ci sono tantissime definizioni di data engineering.
Abbiamo scelto di riportare quella pubblicata da Gartner.
Gartner definisce la data engineering come la pratica per rendere accessibili e disponibili i dati ai vari utenti di dati (ad esempio, data scientist o analisti di dati) al momento giusto. È una disciplina che prevede la collaborazione tra azienda e IT.
I data engineer sono responsabili della creazione, della gestione e dell’operatività delle pipeline dei dati a supporto dello sfruttamento di tali dati nelle diverse analisi aziendali, garantendo la conformità con i requisiti di governance e sicurezza.
In un concetto: Right data to right people in the right time.
La data engineering è nata oltre due decenni fa, venendo poi inglobata all’interno della BI, della data integration e di altre aree per ritornare in auge negli ultima anni grazie alla spinta della data science e alle nuove analisi che si possono fare a partire dai dati stessi.
La data science, e la conseguente esplosione delle fonti dato e del volume dei dati stessi, ha aumentato notevolmente la richiesta di avere i dati in forme utilizzabili velocemente, posizionando la data engineering alla base del processo di gestione dei dati.
Ora non è più possibile avere una strategia di data management senza integrare la Data Engineer.
La data engineering è la summa di 3 competenze :
- Data Management (DM)
- Software Engineering (SE)
- Infrastructure Management (IM)
Tutte sono necessarie per poter centrare l’obiettivo di dare accesso al dato aziendale.