Big data: ecco come orientarsi tra data warehouse, data lake e…

L’85% dei CEO esige dai manager senior di produrre informazioni data-driven su cui fondare le attività di innovazione, ha scritto IDC nel suo “FutureScape: Worldwide Future of Digital Innovation 2023 Predictions”. Nel 2024 il ruolo della conoscenza estratta dai dati è quanto mai attuale. La natura dei big data continua a cambiare, e una loro quota crescente è generata nel cloud: il 32% nel 2027, secondo le stime di “Worldwide IDC Global DataSphere Forecast, 2023-2027”, contro il 17,5% nel 2022. Proprio il cloud sta modificando le tecnologie del data management: la diffusione delle soluzioni public cloud – fondamentalmente, quelle dei grandi fornitori americani – spinge l’evoluzione dal data warehouse al data lake fino al data lakehouse. In ogni caso l’obiettivo è estrapolare conoscenza con tecniche che vanno dalla business intelligence (BI), agli analytics fino all’intelligenza artificiale (IA).

In generale, i CIO in Italia tendono a mantenere il data warehouse se i dati della loro azienda sono strutturati e in quantità non voluminose, mentre il data lake è la scelta più o meno obbligata per chi ha a che fare con dati non strutturati. In molti casi le due soluzioni si affiancano per rispondere alle esigenze di analisi e visualizzazione di entrambi i tipi di dati. Il data lake, per esempio, si presta alla manipolazione delle informazioni in tempo reale o ultra-reale, che sono il 22% dei nuovi dati creati, secondo IDC.

I dati in streaming, invece, che rappresentano il 75% del totale dei nuovi dati, sono destinati idealmente al Ddta lakehouse, il nuovo sistema di data management la cui adozione è facilitata dall’utilizzo del public cloud, come spiega Stefano Gatti, esperto del settore e curatore della newsletter LaCulturadelDato.

Dal data warehouse al data lake

Le due soluzioni del data warehouse e del data lake sono molto diverse tra loro, evidenzia Gatti. La prima riguarda il primo dei sistemi IT dell’era della manipolazione dal dato, con infrastrutture di supporto spesso ancora on-premise. In seguito, sull’onda del web 2.0, si è fatto strada il data lake ai fini di estrarre valore dai big data non strutturati. Ma la differenza è anche nella filosofia sottostante e negli obiettivi.

“Nel data warehouse prevale il metodo, si analizzano dati di business, finanziari, di prodotto e simili, che richiedono maggiore precisione. Nel data lake, invece, prevale la logica di innovazione”, afferma Gatti. “Di conseguenza, nell’ambito della gestione dei dati a fini analitici, il data warehouse ha un focus più su applicazioni di reporting, mentre il data lake si configura piuttosto come un laboratorio di sperimentazione per data scientist e data analyst, adatto ad aree creative, come il marketing. Entrambe le soluzioni oggi possono mostrare dei limiti: nel data warehouse il campo è molto circoscritto, mentre nel data lake si rischia di perdere la direzione dello sforzo di innovazione e la capacità di arrivare a un’applicazione di valore su larga scala”.

Il data lakehouse, che unisce i pregi e supera i limiti dei due modelli, rappresenta secondo Gatti una “evoluzione darwiniana di data warehouse e data lake”. Ma per i CIO italiani non si prescinde dalla pratica, ovvero dalla domanda chiave: di che cosa ho veramente bisogno?

Source link

Big data: ecco come orientarsi tra data warehouse, data lake e data lakehouse

Dal data warehouse al data lake

VMWARE

Helping Public Sector Organisations Define Cloud Strategy

How to change the VLAN ID of the Service Console in ESX from the command line/console

Cisco UCS and Vmware Interfaces (Vnics) HA Design Considerations

Troubleshooting network and TCP/UDP port connectivity issues on ESX/ESXi(2020669)

vSphere Client Parameters

Configuration Templates

CUE Licenses

Trouble shooting Unity Express with Call Manager Integeration & Operational Issues

CME Configuration Example: SIP Trunks to Viatalk and VoIP.ms

SIP Phone registration – CME Configuration

CUE Voicemail + VPIM networking (CUE to unity)

Related Post

Dal data warehouse al data lake

VMWARE

Configuration Templates