7 modi per creare il proprio Large Language Model

Database vettoriali e RAG

Per la maggior parte delle aziende che desiderano personalizzare i loro LLM, RAG è la strada da percorrere. Se qualcuno parla di embedding o di database vettoriali, di solito si riferisce a questo. Il modo in cui funziona è che se un utente pone una domanda, per esempio su una policy o su un prodotto aziendale, questa non viene inviata subito al Large Language Model, ma prima elaborata per determinare se l’utente ha il diritto di accedere a quelle informazioni. Quando esistono i diritti di accesso, vengono recuperate tutte le informazioni potenzialmente rilevanti, di solito da un database vettoriale. Dopodiché, la domanda e le informazioni rilevanti vengono inviate all’LLM e inserite in un prompt ottimizzato che potrebbe anche specificare il formato preferito della risposta e il tono che il modello dovrebbe utilizzare.

Un database vettoriale è un modo per organizzare le informazioni in una serie di elenchi, ognuno dei quali è ordinato in base a un diverso attributo. Per esempio, se c’è una lista alfabetica, più le sue risposte sono vicine a quell’ordine, più sono rilevanti. Un elenco alfabetico è un database vettoriale unidimensionale, ma può avere dimensioni illimitate, consentendo di cercare risposte correlate in base alla vicinanza a qualsiasi numero di fattori. Ciò li rende perfetti da usare in combinazione con gli LLM.

“In questo momento, stiamo convertendo tutto in un database vettoriale”, racconta Ellie Fields, Chief Product and Engineering Officer di Salesloft, un vendor di piattaforme per l’incremento delle vendite. “E sì, funzionano”.

Ed è anche più efficace rispetto all’utilizzo di semplici documenti per fornire un contesto alle query LLM, dice. L’azienda utilizza principalmente ChromaDB, un archivio vettoriale open-source, il cui uso principale è per i Large Language Model. Un altro database vettoriale utilizzato da Salesloft è PGVector, un’estensione di ricerca di similarità vettoriale per PostgreSQL.

“Abbiamo anche fatto delle ricerche utilizzando FAISS e Pinecone”, tiene a precisare Fields. FAISS, o Facebook AI Similarity Search, è una libreria open-source fornita da Meta che supporta la ricerca di somiglianze nei documenti multimediali.

Pinecone è, invece, un database vettoriale proprietario basato sul cloud, anch’esso diventato popolare tra gli sviluppatori; il suo livello gratuito supporta fino a 100.000 vettori. Una volta recuperate le informazioni rilevanti dalla base di dati e inserite in un prompt, vengono inviate a OpenAI che le manderà in esecuzione in un’istanza privata su Microsoft Azure.

“Abbiamo fatto certificare Azure come nuovo sottoprocessore sulla nostra piattaforma”, dichiara Fields. “Informiamo sempre i clienti quando abbiamo un nuovo processore per le loro informazioni”.

Ma Salesloft collabora anche con Google e IBM, e sta lavorando a una funzionalità di AI che utilizza anche queste piattaforme.

“Lavoreremo sicuramente con diversi fornitori e diversi modelli”, dice. “Le cose cambiano di settimana in settimana. Se non si esaminano diversi modelli, si perde la nave”. Quindi RAG consente alle aziende di separare i loro dati proprietari dal modello stesso, rendendo molto più facile scambiare i modelli in entrata e in uscita, via via che ne vengono rilasciati di migliori. Inoltre, il database vettoriale può essere aggiornato, anche in tempo reale, senza bisogno di effettuare ulteriori messe a punto o riqualificazioni del modello.

A volte i diversi modelli hanno API diverse. Ma cambiare un modello è comunque più facile che riqualificarlo. “Non abbiamo ancora trovato un caso d’uso che sia meglio servito dalla messa a punto piuttosto che da un database vettoriale”, aggiunge Fields. “Credo che ci siano diversi casi d’uso validi, ma finora non ne abbiamo trovato uno che funzioni meglio degli altri”.

Una delle prime applicazioni di LLM che Salesloft ha realizzato è stata l’aggiunta di una funzione che consente ai clienti di generare un’e-mail di vendita a un potenziale cliente. “Gli utenti impiegavano molto tempo per scrivere questi messaggi”, osserva Fields. “Era difficile iniziare e c’era una sorta di blocco dello scrittore”. Ora, invece, i clienti possono specificare il target, la loro proposta di valore e l’invito all’azione e, per di più, ricevono tre diverse bozze di e-mail che possono personalizzare.

Modelli open source gestiti localmente

Per Andy Thurai, VP e principal analyst di Constellation Research, è chiaro che gli LLM open source sono diventati molto potenti. Per esempio, Meta ha appena rilasciato il modello Llama 3.2 in diverse dimensioni con nuove funzionalità di visione, e dichiara che è stato scaricato quasi 350 milioni di volte – con un aumento di 10 volte nel corso di un solo anno – e ha più di 60.000 modelli derivati, messi a punto per casi d’uso specifici.

Secondo la Chatbot Arena LLM Leaderboard, il modello top Llama di Meta è paragonabile, a livello qualitàtivo, a GPT 4 di OpenAI e a Claude 3.5 Sonnet di Anthropic.

“Mentre Llama ha il vantaggio iniziale, molte altre aziende stanno creando la propria versione di LLM open source”, rileva Thurai, tra cui Granite di IBM, Titan di AWS e Google con i suoi diversi modelli open source. Alla luce di questa crescita, la società API Kong ha, recentemente, pubblicato un sondaggio su centinaia di professionisti IT e leader aziendali, da cui è emerso che la maggior parte delle aziende utilizza OpenAI, direttamente o attraverso Azure AI, seguito da Google Gemini – ma Llama di Meta è arrivato al terzo posto.

Il fatto che i modelli open source siano disponibili in molte dimensioni è un vantaggio per le aziende, poiché i più piccoli sono più economici e più veloci. “Molte imprese si stanno spostando verso la modalità di distribuzione restando lontane dalla sperimentazione, e il costo dell’inferenza e dell’ottimizzazione sta diventando un problema importante”, riferisce Thurai. “E molte di loro sono alle prese con diverse difficoltà per perseguire la necessaria scalabilità”.

Ikigai Labs, con sede a Boston, offre anche una piattaforma che consente alle aziende di costruire modelli grafici personalizzati di grandi dimensioni, o modelli AI progettati per lavorare con dati strutturati. Ma per rendere l’interfaccia più facile da usare, Ikigai alimenta il suo front-end con gli LLM. Per esempio, l’azienda utilizza la versione da sette miliardi di parametri dell’LLM open source Falcon e lo esegue nel proprio ambiente per alcuni clienti.

Per alimentare le informazioni nell’LLM, Ikigai utilizza un database vettoriale, anch’esso eseguito localmente, spiega il co-fondatore e co-CEO Devavrat Shah. “Al MIT, quattro anni fa, alcuni dei miei studenti e io abbiamo sperimentato una tonnellata di database vettoriali”, dice Shah, che è anche professore di AI al MIT. “Sapevo che sarebbe stato utile, ma non così tanto”.

Mantenere sia il modello che il database vettoriale a livello locale significa che i dati non possono trapelare a terzi, chiarisce. “Per i clienti che non hanno problemi a inviare query ad altri, usiamo OpenAI”, dice Shah. “Siamo agnostici rispetto agli LLM”.

Poi c’è PricewaterhouseCoopers, che ha costruito il proprio strumento ChatPwC ed è anche agnostico rispetto agli LLM. “ChatPwC rende i nostri associati più capaci”, dichiara Bret Greenstein, partner dell’azienda e leader della strategia go-to-market per la GenAI. Per esempio, include suggerimenti e incorporazioni precostituite per implementare casi d’uso come la generazione delle descrizioni degli annunci di lavoro. “Viene implementato per utilizzare i nostri formati, i nostri modelli e la nostra terminologia”, sottolinea. “Per crearlo, abbiamo esperti di risorse umane, di dati e di prompt, e ottimizziamo ciascun caso d’uso per generare job posting validi e coerenti. Oggi, gli utenti finali non hanno bisogno di sapere come fare il prompt per generarli”.

Lo strumento è costruito sulla base di Microsoft Azure, ma esiste anche una variante per Google Cloud Platform e per AWS. “Dobbiamo servire i nostri clienti, che operano su tutti i cloud”, precisa Greenstein. Allo stesso modo, è ottimizzato per utilizzare diversi modelli sul back-end, perché è così che i clienti vogliono. “Abbiamo tutti i principali modelli funzionanti”, aggiunge. “Claude, Anthropic, OpenAI, Llama, Falcon: abbiamo tutto”.

Il mercato sta cambiando rapidamente e in modo naturale, e Greenstein suggerisce alle aziende di adottare una politica di “non rimpianto” per le loro implementazioni di AI.

“Ci sono molte cose che le persone possono fare, come costruire i loro dati indipendenti dai modelli e creare una governance”, dice. Poi, quando il mercato cambierà e usciranno nuovi modelli e tecnologie, i dati e la struttura di governance saranno ancora rilevanti.

Fine tuning

La società di consulenza manageriale AArete utilizza l’ottimizzazione basata sull’apprendimento rapido [in inglese] su Claude 2.5 Sonnet di AWS Bedrock. “Siamo i maggiori utilizzatori di quest’ultima applicazione nell’intera regione Est-1 degli Stati Uniti”, racconta Priya Iragavarapu, VP dei servizi tecnologici digitali dell’azienda. “Siamo stati in grado di scalare la nostra applicazione di AI generativa in produzione in modo efficace”.

Se AArete utilizzasse un modello in hosting e vi si collegasse tramite API, sorgerebbero problemi di sicurezza. “Siamo preoccupati di dove possano finire i dati del prompting”, sostiene l’esperta. “Non vogliamo correre questi rischi”.

Quando si sceglie un modello open source, si guarda quante volte è stato scaricato in precedenza, quale sia l’entità del supporto della community e i requisiti hardware.

“I modelli fondamentali sono diventati così potenti rispetto agli inizi dell’anno scorso che non dobbiamo preoccuparci dell’efficacia dei risultati per la rilevanza dei compiti”, osserva. “L’unica differenza ora è che i modelli si differenziano per il numero di token che possono accettare e per il versioning”.

Molte aziende del mondo finanziario e del settore sanitario stanno perfezionando gli LLM sulla base dei loro set di dati aggiuntivi. Il Large Language Model di base sono addestrati sull’intera Internet, ma con il fine tuning, un’azienda può creare un modello specifico per il proprio caso d’uso aziendale. Un modo comune di farlo è quello di creare un elenco di domande e di risposte, e poi perfezionare un modello sulla loro base. In effetti, OpenAI ha iniziato a consentire la messa a punto del suo modello GPT 3.5 nell’agosto 2023, utilizzando un approccio Q&A, e ha presentato una suite di nuove opzioni di ottimizzazione, personalizzazione e RAG per GPT 4 durante il DevDay di novembre. Si tratta di un sistema particolarmente utile per il servizio clienti e per le applicazioni di help desk, dove un’azienda potrebbe già disporre di una banca dati di FAQ.

Le aziende di software che costruiscono applicazioni SaaS potrebbero praticare il fine tuning, dice Greenstein di PricewaterhouseCoopers. “Se si dispone di un modello altamente ripetibile, la regolazione fine può ridurre i costi”, dice, ma per le implementazioni aziendali, il RAG è più efficiente fino al 95% dei casi.



Source link