21 nov 2025 3 min read World Model

Memory Updated... 7 (novembre 2025)

Principali novità LLM (gemini 3, ChatGPT 5.1 Grok 4.1),e World Model. strumenti creativi, piattaforme di sviluppo e nuovi benchmark più realistici.

TL;DR:

Aggiornamenti AI recenti includono ChatGPT 5.1, la Chat di Gruppo, Iconic Voice di ElevenLabs, Suno V5, Grok 4.1 e soprattutto Gemini 3 addestrato su TPU Google. Google lancia anche Vids e Antigravity. Manus introduce un’estensione browser. Per la valutazione dei modelli, cresce l’interesse per benchmark più realistici come Vending Bench.

Open AI

OpenAI rilascia ChatGPT 5.1: promette di essere più umano, c'è la possibilità di selezionare la personalità, in generale è più coerente col prompt. Nulla di sconvolgente, ma un passo avanti che si merita l'avanzamento di release.

Chat di Gruppo

OpenAi rilascia anche una funzione chat di Gruppo.

Per ora solo in Giappone, Korea, ma è un altro passo avanti per il lavoro di gruppo supportatato da AI. Se solo decidessero di affinare la granularità delle condivisioni...

ElevenLabs

ElevenLabs introduce Iconic Voice, marketplace che offre voci sintetiche con licenza basate su personaggi celebri o storici. Il lancio include Messi, Richard Feynman, Alexander Graham Bell, Art Garfunkel, Swami Vivekananda e molti altri con diritti ottenuti da musei e fondazioni competenti.
Le voci sono generate tramite il modello AVM, supportano diverse lingue e possono essere impiegate in contenuti commerciali. Il progetto punta a preservare e rendere utilizzabili voci iconiche, ma arriva in un contesto di crescente attenzione verso copyright e consenso nell’uso dell’IA vocale. ElevenLabs assicura che tutte le voci sono autorizzate e controllate.

Penso che adesso potremmo vedere i film americani con la voce originale...

World Models

Una delle cose più fighe uscite, offuscata da Grok 4.1 e Gemini 3 ma che - davvero - è un passo avanti

Suno

La versione 5 ha una qualità vocale estrema oltre a una serie di funzioni a supporto dei creatori (download degli stem, aggiungere parte ritmica a voci...). Io ero già rimasto a bocca aperta con la versione 4, non so cosa aggiungere...

Grok

Xcom rilascia Grok 4.1, che ha superato gli avversari sotto molte metriche (alcune piuttosto particolari)....

... ma per un giorno solo, dato che LLM Arena con l'uscita di Gemini 3, abbiamo il nuovo vincitore.

Musk - che è chiaro non dorma mai - promette già Grok 5 per il Q1 del 2026.

Alphabet / Google / Gemini

Google Vids

nella suite dei Google Doc si aggiunge Vids, un editor di video: in input accetta ovviamente mp4 ma anche Video creati da AI. Al momento l'interfaccia è un po' legnosa, ma è incredibile Lo trovi qui: docs.google.com/videos/u/0/

Gemini 3

Google ha lasciato la corona di miglior LLM a Grok giusto 24 ore. Ha infatti rilasciato Gemini 3, che sembra mangiarsi tutti i concorrenti.

Al netto delle performance incredibili, due sono le cose degne di nota:

La prima cosa molto interessante (e che nessuno ha citato, presi dalla foga di dover fare foto con faccia buffa e titolo clickbait su Youtube ) Google ha addestrato Gemini non con l'hardware Nvidia ma con le proprie TPU.
Lasciamo la domanda "cosa potrebbe succedere se Google si mette a vendere le proprie TPU?" a un Mak's File. Di sicuro mi sto questionando se ha senso tenere ancora tutte le Nvidia.
Seconda cosa, più sottile, è come Google abbia rilasciato questo in maniera molto mansueta, quasi come se fosse "normale" - Se fossi in Sam Altman (e uno dei mille mila fondi che gli danno credito) diciamo che non dormirei tranquillissimo.

Google Antigravity

E' una piattaforma di sviluppo che usa agenti per fare codice - entra a gamba tesa nel mercato dei vari Vercel, Lovable, Base44. In questo caso siamo un filo oltre alla mia capacità di valutare lo strumento, ma dalla demo sembra davvero potente (la funziona artifact mostra le check list interne create dall'agente durante lo sviluppo!)

Manus

Manus Browser Operator è un'estensione del browser che consente a Manus di operare all'interno dei browser locali degli utenti. Attualmente è in fase di lancio in versione beta per gli utenti Pro, Plus e Team. L'estensione funziona su Chrome ed Edge, ma è prevista una maggiore compatibilità con altri browser. Gli utenti mantengono il pieno controllo e la trasparenza su ogni azione.

A questo aggiungiamo i test di integrazione nativa tra Manus e Stripe.

Metriche ?

Spesso vi parlo di Metriche e Benchmark: i siti LMArena.ai e MathArena.ai sono quelli a cui si fa riferimento di solito. Uno dei grossi problemi è che i test vengono saturati (ovvero raggiungono risultati maggiori del 90% ogni generazione di LLM).

Anche Humanity Last exam verrà presto risolto.

Per gli agenti invece mi sta piacendo l'approcio del Vending Bench. Hanno creato una simulazione di lungo periodo in cui hanno chiesto ai vari agenti di operare un distributore automatico, parlando con fornitori, gestendo ordini etc etc. Questo è molto figo. Gli dedicherò un post tra qualche giorno.

Conclusioni.

La velocità continua ad aumentare e mi sembra che viviamo in una specie di bolla (non solo finanziaria, ma cognitiva): sono personalmente frastornato da quante cose succedono. Probabilmente siamo davvero entrati nella singolarità e non ce ne stiamo rendendo contro.