Il modello Molmo di Ai2 mostra che il software open source può soddisfare e battere i modelli multimodali chiusi

La saggezza comune è che aziende come Google, OpenAI e Anthropic, con riserve di denaro inesauribili e centinaia di ricercatori di alto livello, siano le uniche in grado di realizzare modelli di base all'avanguardia. Ma come ha notato uno di loro in modo famoso, "non hanno fossato" - e Ai2 ha dimostrato oggi ciò con il rilascio di Molmo, un modello di intelligenza artificiale multimodale che raggiunge i migliori di loro, pur essendo piccolo, gratuito e veramente open source.

Per essere chiari, Molmo (modello di linguaggio aperto multimodale) è un motore di comprensione visiva, non un chatbot a servizio completo come ChatGPT. Non ha un'API, non è pronto per l'integrazione aziendale e non cerca il web per te o per i suoi scopi. Puoi pensarlo come la parte di quei modelli che vede un'immagine, la comprende e può descriverla o rispondere a domande su di essa.

Molmo (disponibile in varianti da 72B, 7B e 1B di parametri), come altri modelli multimodali, è in grado di identificare e rispondere a domande su quasi qualsiasi situazione quotidiana o oggetto. Come si usa questa macchina del caffè? Quanti cani in questa foto hanno la lingua fuori? Quali opzioni in questo menu sono vegane? Quali sono le variabili in questo diagramma? È il tipo di compito di comprensione visiva che abbiamo visto dimostrato con vari livelli di successo e latenza per anni.

Ciò che cambia non sono necessariamente le capacità di Molmo (che puoi vedere nella demo qui sotto, o testare qui), ma come le raggiunge.

La comprensione visiva è un dominio ampio, naturalmente, che spazia dalla conta delle pecore in un campo alla congettura dello stato emotivo di una persona al riassunto di un menu. Pertanto è difficile da descrivere, figuriamoci da testare quantitativamente, ma come ha spiegato il CEO di Ai2, Ali Farhadi, in un evento demo presso la sede dell'organizzazione di ricerca a Seattle, puoi almeno dimostrare che due modelli sono simili nelle loro capacità.

Un quasi costante nello sviluppo dell'intelligenza artificiale è stato "più grande è meglio". Più dati di addestramento, più parametri nel modello risultante e più potenza di calcolo per crearli e farli funzionare. Ma ad un certo punto letteralmente non puoi farli più grandi: non ci sono abbastanza dati per farlo, o i costi e i tempi di calcolo diventano così alti da diventare controproducenti. Devi semplicemente arrangiarti con quello che hai, o ancora meglio, fare di più con meno.

Farhadi spiegò che Molmo, sebbene si comporti alla pari con GPT-4o, Gemini 1.5 Pro e Claude-3.5 Sonnet, pesa (secondo le migliori stime) circa un decimo dei loro inseguimenti. E si avvicina al loro livello di capacità con un modello che è un decimo di quello.

“Ci sono una dozzina di diversi benchmark su cui la gente valuta. Non mi piace questo gioco, scientificamente... ma ho dovuto mostrare alla gente un numero", spiegò. "Il nostro modello più grande è un modello piccolo, 72B, sta battendo tutti i GPTs, Claudes e Geminis su quei benchmark. Di nuovo, prendilo con le pinze; questo significa che questo è veramente migliore di loro o no? Non lo so. Ma almeno per noi, significa che questo sta giocando allo stesso gioco”.

Se vuoi provare a confonderlo, sentiti libero di provare la demo pubblica, che funziona anche su mobile. (Se non vuoi effettuare l'accesso, puoi aggiornare o scrollare verso l'alto e "modificare" il prompt originale per sostituire l'immagine.)

Il segreto è utilizzare meno dati, ma di migliore qualità. Invece di addestrare su una libreria di miliardi di immagini che non possono essere tutte controllate in termini di qualità, descritte o deduplicate, Ai2 ha selezionato e annotato un insieme di sole 600.000. Ovviamente è ancora molto, ma rispetto a sei miliardi è una goccia nel mare - una frazione di un percentuale. Anche se questo lascia fuori un po' di cose, il loro processo di selezione e il metodo di annotazione interessante forniscono descrizioni di altissima qualità.

Interessante come? Beh, mostrano alle persone un'immagine e chiedono loro di descriverla - a voce alta. A quanto pare le persone parlano delle cose in modo diverso da come ne scrivono, e questo produce risultati non solo accurati ma anche conversazionali ed utili. Le descrizioni dell'immagine risultanti che Molmo produce sono ricche e pratiche.

Questo è meglio dimostrato dalla sua nuova, e per almeno alcuni giorni unica, capacità di "puntare" alle parti rilevanti delle immagini. Quando viene chiesto di contare i cani in una foto (33), mette un punto su ciascun volto. Quando viene chiesto di contare le lingue, mette un punto su ciascuna lingua. Questa specificità gli consente di eseguire nuove azioni senza pari. E soprattutto, funziona anche sulle interfacce web: senza guardare il codice del sito web, il modello capisce come navigare in una pagina, inviare un modulo, e così via. (Rabbit ha recentemente mostrato qualcosa di simile per il suo r1, in uscita la prossima settimana.)

Quindi perché tutto ciò è importante? I modelli escono praticamente ogni giorno. Google ha appena annunciato qualcosa. OpenAI ha un giorno di demo in arrivo. Perplexity sta costantemente anticipando qualcosa o un altro. Meta sta pubblicizzando la versione di Llama qualcosa.

Beh, Molmo è completamente gratuito e open source, oltre a essere sufficientemente piccolo da poter funzionare in locale. Nessuna API, nessuna sottoscrizione, non servono cluster GPU raffreddati ad acqua. L'intento di creare e rilasciare il modello è quello di fornire agli sviluppatori e ai creatori la possibilità di realizzare app, servizi ed esperienze basate sull'intelligenza artificiale senza dover chiedere il permesso e pagare una delle più grandi aziende tecnologiche del mondo.

“Stiamo puntando ai ricercatori, agli sviluppatori di app, alle persone che non sanno come gestire questi modelli [grandi]. Un principio chiave nel rivolgersi a così vasta gamma di pubblico è il principio chiave che abbiamo spinto per un po', ovvero: rendilo più accessibile”, ha dichiarato Farhadi. “Stiamo rilasciando ogni singola cosa che abbiamo fatto. Questo include i dati, la pulizia, le annotazioni, l'addestramento, il codice, i punti di controllo, l'valutazione. Stiamo rilasciando tutto ciò che abbiamo sviluppato su di esso.”

Ha aggiunto che si aspetta che le persone inizino a costruire con questo dataset e codice immediatamente - compresi i rivali con un portafoglio profondo, che assorbono ogni dato "disponibile pubblicamente", cioè qualsiasi cosa non sia bloccata. (“Se lo menzionano o no è tutta un'altra storia”, ha aggiunto.)

Il mondo dell'intelligenza artificiale si muove velocemente, ma sempre di più i colossi si trovano in una corsa verso il basso, abbassando i prezzi al minimo indispensabile pur raccogliendo centinaia di milioni per coprire i costi. Se capacità simili sono disponibili da opzioni open source gratuite, il valore offerto da quelle aziende può davvero essere così astronomico? Molmo almeno dimostra che, sebbene sia una domanda aperta se l'imperatore sia vestito, sicuramente non ha una palizzata.