GenAI e dati: le difficoltà per i CIO di oggi. Tra privacy, compliance e anonimizzazione

Nel pieno del clamore suscitato dall’intelligenza artificiale generativa – complici gli entusiastici annunci dei big tecnologici e le applicazioni consumer entrate rapidamente nel lavoro in azienda – non stupisce che la GenAI sia risultata la prima tipologia di soluzione AI implementata nelle aziende in un sondaggio [in inglese] condotto da Gartner alla fine del 2023 e pubblicato nelle scorse settimane. Il 29% dei 644 manager interpellati all’interno di imprese di Stati Uniti, Germania e Regno Unito ha affermato di aver già in uso soluzioni di intelligenza artificiale generativa. La GenAI è risultata più diffusa di altre tecnologie legate all’intelligenza artificiale, come algoritmi di ottimizzazione, sistemi rule-based, natural language processing (elaborazione del linguaggio naturale) e altri tipi di machine learning.

La vera sfida, però, è “dimostrare e stimare” il valore dei progetti (è il 49% delle risposte nel sondaggio) non solo rispetto al Total Cost of Ownership e ai benefici ad ampio spettro che si possono ottenere, ma di fronte ad ostacoli come la mancanza di fiducia negli aspetti tecnologici dell’AI (indicata dal 40%) e la difficoltà di avere volumi di dati sufficienti (39%). Ma non si tratta di sfide insormontabili.

GenAI, opzione dati sintetici per proteggere la privacy

Il primo passo nei progetti AI e GenAI è sempre ottenere i dati. Come spiega Vincenzo Laveglia, Ph.D. (con tesi di ricerca sulle reti neurali dinamiche) e Tecnologo presso l’Università di Firenze, “Nei casi in cui la privacy è imprescindibile si cerca di anonimizzarli quanto più possibile per poi passare ad addestrare il modello. Occorre un bilanciamento tra privacy e utilità: se dopo l’anonimizzazione il livello di informazione del dato è lo stesso, il dato è ancora utile; se invece, una volta tolti i riferimenti personali o sensibili, il dato non è più efficace si crea un problema. I dati sintetici evitano queste difficoltà, ma non sono esenti dalla necessità del trade-off: dovremo accertarci di avere un equilibrio tra le varie classi di informazioni, altrimenti il modello diventerà molto esperto su un tema e molto incerto su un altro”.

Sotto l’ombrello dei dati sintetici rientrano quelli generati con metodi di data augmentation, ovvero il processo di generazione artificiale di nuovi dati a partire da quelli esistenti, con cui si addestrano i modelli di machine learning.

“Quando è possibile applicarla, la data augmentation risolve il problema dell’insufficienza di dati o della compliance alle norme sulla privacy e la proprietà intellettuale”, afferma Laveglia.

Anche secondo Gartner i dati sintetici possono aiutare a risolvere il problema della disponibilità di dati per i prodotti AI, nonché le sfide della privacy, della conformità e dell’anonimizzazione delle informazioni. I dati sintetici, infatti, possono essere generati per rispecchiare le stesse caratteristiche statistiche dei dati reali, ma senza rivelare informazioni personali identificabili, quindi rispettosi delle norme sulla privacy by design, e altri dettagli riservati. L’alternativa ai dati sintetici è rendere anonimi e de-identificare manualmente i set di dati, ma ciò richiede più tempo e lavoro e comporta un tasso di errore più elevato.

Di dati sintetici parla anche l’AI Act europeo, citandoli come misura possibile per mitigare i rischi connessi all’uso di dati personali per l’addestramento di sistemi di intelligenza artificiale.

“Il livello di attenzione sulla tutela dei dati personali in ambito AI si è notevolmente alzato negli ultimi mesi, anche grazie a specifici interventi delle autorità garanti, inclusa quella italiana”, evidenzia Chiara Bocchi, avvocata in ambito TMT/Commerciale/Protezione dei dati e counsel dello studio legale Dentons. “Guardando ai modelli di AI per finalità generali, al momento i riflettori sono puntati in particolare sul data scraping, sia dal punto di vista di chi effettua scraping, sia dal punto di vista di chi lo subisce. L’autorità italiana ha adottato una nota informativa su web scraping e intelligenza artificiale generativa indicando proprio alcune misure che possono essere prese in considerazione per prevenire questa attività”.

Da dove vengono i dati: le complessità della compliance

In questa nota informativa dello scorso maggio, il Garante italiano per la protezione dei dati personali ha evidenziato come l’addestramento dei modelli su cui si basano i sistemi di GenAI richiede sempre “una mole ingente di dati (anche di carattere personale)” e che questi sono spesso ottenuti con la tecnica del web scraping, ovvero “una raccolta massiva ed indiscriminata effettuata sul web”. L’attività di web scraping può essere diretta (effettuata dallo stesso soggetto che sviluppa il modello) o indiretta (effettuata su dataset creati mediante tecniche di web scraping da soggetti terzi rispetto allo sviluppatore del modello, quindi attingendo a data lake di terze parti precedentemente creati mediante scraping).

Per i CIO diventa complicato accertarsi che i dati siano stati raccolti in modo conforme e, soprattutto, di poterli a sua volta usare in piena compliance.

“Dal punto di vista della normativa in materia di tutela dei dati personali e di tutela del diritto d’autore, non è complesso capire se un dato è protetto; la complessità, in particolare sul versante privacy, è garantire un uso del dato pubblico o pubblicamente accessibile anche per fini diversi da quelli che ne hanno determinato la diffusione”, sottolinea l’avvocata Bocchi. “Guardando solo alla base giuridica del trattamento, ottenere il consenso di tutti i soggetti ai quali possono essere raccolti i dati personali con la tecnica dello scraping è sostanzialmente impossibile”.

Per questo le autorità per la privacy stanno cercando di trovare delle linee guida.

“In particolare l’interrogativo, e la valutazione, è se la base giuridica del legittimo interesse possa essere applicabile per il trattamento di dati personali, raccolti con la tecnica dello scraping, a fini dell’addestramento di sistemi di AI”, prosegue Bocchi. “Il garante italiano ha annunciato, in sede di pubblicazione della propria nota informativa su web scraping e intelligenza artificiale generativa, che si pronuncerà a breve sulla liceità del web scraping di dati personali basato sul legittimo interesse”. 

Su questo tema sono già intervenuti il Garante privacy olandese e il Garante privacy francese (Cnil [in inglese]); quest’ultimo ha indicato, ancora una volta, nei dati sintetici e nelle tecniche di anonimizzazione e pseudonimizzazione una misura valida per limitare i rischi connessi al trattamento di dati personali per l’addestramento dei sistemi di GenAI.

“Uno dei rischi derivanti dall’uso di sistemi di GenAI oggi è la difficoltà di assicurarne la conformità con il GDPR, la normativa copyright e, a tendere, l’AI Act per quel che riguarda l’AI e l’AI generativa, con conseguenti sanzioni”, osserva Bocchi.

Le strategie per mitigare i rischi dell’AI

Tra tante complessità, come capitalizzare sulle potenzialità della GenAI mitigando i rischi?

“Sicuramente una strategia vincente è definire delle soluzioni che assicurino la conformità alla normativa privacy fin dalla fase di design del sistema di GenAI, partendo dalla base dati di addestramento”, afferma Bocchi. “L’AI Act entrerà a breve in vigore e, con esso e con riferimento specifico ai modelli di intelligenza artificiale per finalità generali, l’obbligo di adottare politiche per adempiere alla normativa in materia di diritto d’autore e di redigere, rendendola pubblica, una sintesi dettagliata dei contenuti usati per l’addestramento dei modelli di intelligenza artificiale e, quindi, anche dei dati”.

Un’altra iniziativa efficace è strutturare l’azienda in modo da garantire la collaborazione tra diverse figure manageriali, creando un dialogo continuo e costante tra il CIO e le altre funzioni, così da unire competenze tecniche e giuridiche. Non solo: “Per incrementare la fiducia nelle nuove tecnologie, molte società anche parte di gruppi internazionali si stanno attivando con la creazione di comitati etici interni, ai quali sono attribuite anche funzioni di sostegno e promozione di una governance dell’innovazione”, sottolinea l’avvocata.

Sull’addestramento dei modelli AI e la conservazione dei dati, il Garante francese Cnil suggerisce alle imprese anche di concentrarsi sullo sviluppo trasparente dei sistemi di intelligenza artificiale e sulla loro auditability, ovvero la possibilità che siano verificati da terze parti, e che le tecniche di sviluppo dei modelli siano sottoposte a un’efficace peer review.

Fidarsi della GenAI: come muoversi tra tecnologia e change management

Per quanto riguarda il trust nella tecnologia dell’intelligenza artificiale, i CIO temono soprattutto le allucinazioni e i rischi di discriminazione: per potersi “fidare” del risultato, è, ancora una volta, necessario assicurare la qualità del dataset, nonché limitare opportunamente la memorizzazione dei dati per evitare che le informazioni personali o sensibili siano riportate alla superficie.

Con queste premesse, afferma Laveglia, l’AI è uno strumento del tutto affidabile: l’importante è che il sistema sia costruito bene, ovvero che le performance sui dati di test siano rassicuranti, e che il dataset usato sia molto rappresentativo della vera distribuzione dei dati.

“Un esempio è Alpha Fold, molto usato nell’ambito della biologia strutturale e bioinformatica in generale”, riferisce il ricercatore. “Si tratta di un programma basato interamente su tecniche di intelligenza artificiale sviluppato da DeepMind per predire la struttura tridimensionale delle proteine a partire dalla loro sequenza aminoacidica: è rivoluzionario perché accelera il lavoro delle persone, svolgendo in una giornata compiti che ai ricercatori richiederebbero mesi o anni, con un tasso di errore bassissimo. Il modello è ben fatto e il risultato è assolutamente affidabile, anche se il dataset per l’addestramento, il protein data bank PDB, è grande (ci sono diverse centinaia di migliaia di esempi), ma non ha certo un ordine di grandezza paragonabile ai dataset usati per addestrare i Large Language Model moderni”.

Le aziende possono muoversi in modo simile, partendo da un modello pre-addestrato, che assicura una configurazione ottimale, e svolgere su questo il fine tuning, adattandolo al proprio caso d’uso. Partire da zero con un proprio modello, infatti, richiede molto più lavoro di raccolta dati e molte competenze (infatti, è l’opzione meno frequente nel citato sondaggio di Gartner); usare i prodotti incorporati nelle suite delle big tech, d’altro lato, è una soluzione più immediata (e, infatti, è la più frequente), ma meno personalizzabile: potrebbe costringere i CIO nei confini definiti di alcune applicazioni. Scaricare un modello pre-formato e raffinarlo poi con i propri dati è il giusto compromesso per la creatività del team IT, purché, insieme al business, si siano prima individuati i casi d’uso che hanno il potenziale di portare vantaggio in azienda.

Adottare l’AI in azienda in modo maturo vuol dire, infatti, diffondere questa tecnologia su vasta scala nei processi e nelle funzioni, cercando di generare benefici che vanno oltre l’aumento della produttività. Occorre anche un focus dell’IT sull’engineering dell’AI, ovvero lo sviluppo tecnologico e l’implementazione concreta: oggi solo il 48% dei progetti AI entra in produzione, con un tempo medio di 8 mesi per uscire dalla fase del prototipo.

I progetti, infine, vanno accompagnati da un aggiornamento delle competenze (upskilling) delle persone e da attività di change management, perché il modo di organizzare i team e il lavoro è destinato a cambiare significativamente: secondo lo studio “PwC AI Jobs Barometer”, la domanda di competenze che fanno uso dell’AI sono in rapida crescita sul mercato (+25%) e ciò significa che – più che essere sostituiti dall’AI – dovremo imparare a lavorarci insieme. Lo confermano i risultati di un altro studio di PwC, il “Global CEO Survey 2024”: per il 69% del campione l’intelligenza artificiale richiederà alla maggioranza dei loro dipendenti di sviluppare nuove competenze.



Source link