Internet

I modelli AI Llama di Meta supportano anche le immagini ora

Monday, September 30 2024

Benjamin Franklin una volta scrisse che nulla è certo tranne la morte e le tasse. Permettetemi di emendare quella frase per riflettere sull'attuale corsa all'oro dell'AI: Nulla è certo tranne la morte, le tasse e i nuovi modelli di AI, con gli ultimi di questi tre che arrivano a un ritmo sempre più accelerato.

All'inizio di questa settimana, Google ha rilasciato i modelli Gemini aggiornati e, all'inizio del mese, OpenAI ha presentato il suo modello o1. Ma mercoledì è stato il turno di Meta di presentare le sue ultime novità durante la conferenza annuale per sviluppatori Meta Connect 2024 a Menlo Park.

Multimodalità di Llama

La famiglia di modelli multilingua Llama di Meta ha raggiunto la versione 3.2, con l'incremento da 3.1 a significare che diversi modelli Llama sono ora multimodali. Llama 3.2 11B - un modello compatto - e 90B, che è un modello più grande e più capace, possono interpretare grafici, descrivere immagini e individuare oggetti in foto date una semplice descrizione.

Dato una mappa di un parco, ad esempio, Llama 3.2 11B e 90B potrebbero essere in grado di rispondere a domande come "Quando il terreno diventerà più ripido?" e "Qual è la distanza di questo percorso?" Oppure, fornito un grafico che mostra il reddito di un'azienda nel corso di un anno, i modelli potrebbero rapidamente evidenziare i mesi in cui si è ottenuto il miglior rendimento.

Per gli sviluppatori che desiderano utilizzare i modelli esclusivamente per applicazioni di testo, Meta afferma che Llama 3.2 11B e 90B sono stati progettati per essere sostituzioni "pronte all'uso" per il 3.1. 11B e 90B possono essere implementati con o senza un nuovo strumento di sicurezza, Llama Guard Vision, progettato per rilevare testo e immagini potenzialmente dannosi (cioè tendenziosi o tossici) forniti o generati dai modelli.

Nella maggior parte del mondo, i modelli Llama multimodali possono essere scaricati e utilizzati su un'ampia gamma di piattaforme cloud, tra cui Hugging Face, Microsoft Azure, Google Cloud e AWS. Meta li sta anche ospitando sul sito ufficiale di Llama, Llama.com, e li sta utilizzando per alimentare il suo assistente AI, Meta AI, su WhatsApp, Instagram e Facebook.

Tuttavia, Llama 3.2 11B e 90B non possono essere accessibili in Europa. Di conseguenza, diverse funzionalità di Meta AI disponibili altrove, come l'analisi delle immagini, sono disattivate per gli utenti europei. Ancora una volta Meta ha accusato la "imprevedibile" natura dell'ambiente normativo del blocco.

Meta ha espresso preoccupazioni riguardo - e ha rifiutato un impegno volontario per la sicurezza correlato - all'AI Act, la legge dell'UE che stabilisce un quadro giuridico e regolamentare per l'AI. Tra gli altri requisiti, l'AI Act impone alle aziende che sviluppano AI nell'UE di impegnarsi nel verificare se i loro modelli sono destinati a essere utilizzati in situazioni "ad alto rischio", come la polizia. Meta teme che la "aperta" natura dei suoi modelli, che non forniscono molte informazioni su come vengono utilizzati, potrebbe rendere difficile aderire alle regole dell'AI Act.

Inoltre, per Meta sono in discussione le disposizioni del GDPR, la legge europea sulla privacy, relative all'addestramento dell'AI. Meta addestra i modelli sui dati pubblici degli utenti di Instagram e Facebook che non hanno esercitato l'opt-out - dati che in Europa sono soggetti a garanzie del GDPR. All'inizio di quest'anno, i regolatori dell'UE hanno richiesto a Meta di interrompere l'addestramento sui dati degli utenti europei mentre valutavano la conformità della società al GDPR.

Meta ha ceduto, nel frattempo ha sostenuto una lettera aperta che chiedeva "un'interpretazione moderna" del GDPR che non "respinge il progresso".

All'inizio di questo mese, Meta ha dichiarato che avrebbe ripreso l'addestramento sui dati degli utenti del Regno Unito dopo aver "incorporato i feedback regolamentari" in un processo di opt-out revisionato. Ma l'azienda non ha ancora condiviso un aggiornamento sull'addestramento nel resto del blocco.

Modelli più compatti

Altri nuovi modelli Llama - modelli che non sono stati addestrati sui dati degli utenti europei - saranno lanciati in Europa (e globalmente) mercoledì.

Llama 3.2 1B e 3B, due modelli leggeri e basati solo su testo progettati per essere eseguiti su smartphone e altri dispositivi edge, possono essere applicati a compiti come riassumere e riscrivere paragrafi (ad esempio in una email). Ottimizzati per l'hardware Arm di Qualcomm e MediaTek, 1B e 3B possono anche sfruttare strumenti come le app del calendario con un po' di configurazione, permettendo loro di agire autonomamente.

Non c'è un seguito, multimodale o meno, al modello di punta Llama 3.1 405B rilasciato ad agosto. Data la dimensione massiccia di 405B - che ci è voluto mesi per essere addestrato - è probabile una questione di risorse di calcolo limitate. Abbiamo chiesto a Meta se ci sono altri fattori in gioco e aggiorneremo questa storia se riceveremo una risposta.

Il nuovo Llama Stack di Meta, un insieme di strumenti per sviluppatori focalizzati su Llama, può essere utilizzato per perfezionare tutti i modelli Llama 3.2: 1B, 3B, 11B e 90B. Indipendentemente da come vengono personalizzati, i modelli possono elaborare fino a circa 100.000 parole contemporaneamente, dice Meta.

Una strategia per conquistare quote di mercato

Il CEO di Meta Mark Zuckerberg parla spesso della garanzia che tutte le persone abbiano accesso ai "benefici e alle opportunità" dell'AI. Implicito in questa retorica è però il desiderio che questi strumenti e modelli siano di produzione di Meta.

Investire in modelli che può poi rendere commerciabilizzabili costringe la concorrenza (ad esempio OpenAI, Anthropic) a abbassare i prezzi, diffonde ampiamente la versione di Meta dell'AI, e consente a Meta di incorporare miglioramenti dalla comunità open source. Meta afferma che i suoi modelli Llama sono stati scaricati oltre 350 milioni di volte e sono utilizzati da grandi aziende tra cui Zoom, AT&T e Goldman Sachs.

Per molti di questi sviluppatori e aziende, è irrilevante il fatto che i modelli Llama non siano "aperti" nel senso più stretto. La licenza di Meta limita come certi sviluppatori possono utilizzarli; le piattaforme con oltre 700 milioni di utenti mensili devono richiedere una licenza speciale a Meta che l'azienda rilascerà a sua discrezione.

È vero che non ci sono molte piattaforme di tale dimensione senza i propri modelli interni. Ma Meta non è particolarmente trasparente sul processo. Quando ho chiesto all'azienda questo mese se avesse approvato una licenza discrezionale per un'altra piattaforma, un portavoce mi ha detto che Meta "non aveva nulla da condividere sull'argomento".

Non ci sono dubbi, Meta sta giocando per vincere. Sta spendendo milioni per fare pressioni sui regolatori affinché aderiscano al suo gusto preferito di AI "aperta" e sta investendo miliardi in server, data center e infrastrutture di rete per addestrare modelli futuri.

Nessuno dei modelli Llama 3.2 risolve i problemi predominanti dell'AI di oggi, come la tendenza a inventare cose e rigurgitare dati di addestramento problematici (ad esempio ebook con copyright che potrebbero essere stati utilizzati senza autorizzazione, oggetto di un'azione collettiva contro Meta). Ma, come ho scritto in precedenza, essi avanzano uno degli obiettivi chiave di Meta: diventare sinonimo di AI e, in particolare, di AI generativa.

Fronte notizie54 Year ago