Big data: ecco come orientarsi tra data warehouse, data lake e data lakehouse

L’85% dei CEO esige dai manager senior di produrre informazioni data-driven su cui fondare le attività di innovazione, ha scritto IDC nel suo “FutureScape: Worldwide Future of Digital Innovation 2023 Predictions”. Nel 2024 il ruolo della conoscenza estratta dai dati è quanto mai attuale. La natura dei big data continua a cambiare, e una loro quota crescente è generata nel cloud: il 32% nel 2027, secondo le stime di “Worldwide IDC Global DataSphere Forecast, 2023-2027”, contro il 17,5% nel 2022. Proprio il cloud sta modificando le tecnologie del data management: la diffusione delle soluzioni public cloud – fondamentalmente, quelle dei grandi fornitori americani – spinge l’evoluzione dal data warehouse al data lake fino al data lakehouse. In ogni caso l’obiettivo è estrapolare conoscenza con tecniche che vanno dalla business intelligence (BI), agli analytics fino all’intelligenza artificiale (IA).

In generale, i CIO in Italia tendono a mantenere il data warehouse se i dati della loro azienda sono strutturati e in quantità non voluminose, mentre il data lake è la scelta più o meno obbligata per chi ha a che fare con dati non strutturati. In molti casi le due soluzioni si affiancano per rispondere alle esigenze di analisi e visualizzazione di entrambi i tipi di dati. Il data lake, per esempio, si presta alla manipolazione delle informazioni in tempo reale o ultra-reale, che sono il 22% dei nuovi dati creati, secondo IDC.

I dati in streaming, invece, che rappresentano il 75% del totale dei nuovi dati, sono destinati idealmente al Ddta lakehouse, il nuovo sistema di data management la cui adozione è facilitata dall’utilizzo del public cloud, come spiega Stefano Gatti, esperto del settore e curatore della newsletter LaCulturadelDato.

Dal data warehouse al data lake

Le due soluzioni del data warehouse e del data lake sono molto diverse tra loro, evidenzia Gatti. La prima riguarda il primo dei sistemi IT dell’era della manipolazione dal dato, con infrastrutture di supporto spesso ancora on-premise. In seguito, sull’onda del web 2.0, si è fatto strada il data lake ai fini di estrarre valore dai big data non strutturati. Ma la differenza è anche nella filosofia sottostante e negli obiettivi.

“Nel data warehouse prevale il metodo, si analizzano dati di business, finanziari, di prodotto e simili, che richiedono maggiore precisione. Nel data lake, invece, prevale la logica di innovazione”, afferma Gatti. “Di conseguenza, nell’ambito della gestione dei dati a fini analitici, il data warehouse ha un focus più su applicazioni di reporting, mentre il data lake si configura piuttosto come un laboratorio di sperimentazione per data scientist e data analyst, adatto ad aree creative, come il marketing. Entrambe le soluzioni oggi possono mostrare dei limiti: nel data warehouse il campo è molto circoscritto, mentre nel data lake si rischia di perdere la direzione dello sforzo di innovazione e la capacità di arrivare a un’applicazione di valore su larga scala”.

Il data lakehouse, che unisce i pregi e supera i limiti dei due modelli, rappresenta secondo Gatti una “evoluzione darwiniana di data warehouse e data lake”. Ma per i CIO italiani non si prescinde dalla pratica, ovvero dalla domanda chiave: di che cosa ho veramente bisogno?



Source link