13 mar 2025 13 min read AI Agent

Episodio 55.2025: Stiamo entrando nell'era degli Agenti?

Breve recap del passato e presente prossimo delle AI Generative, Business model dell'editoria moderna, microchip e distopia.

Questa puntata prendo lo spunto del rilascio di Moshi e la beta di Manus per fare il punto della situazione AI, e come tutto stia andando verso la costruzione di robot & androidi. Il Londoner fa un lungo articolo in cui scopre l'acqua calda e discute dei business model dell'editoria moderna, noi facciamo un passo in più generalizzandolo ad altre professioni. Torno a parlare ancora di microchip e l'angolino cyberpunk distopico. In chiusura La Gragnuola di notizie.

Sommario

Le immagini a Corredo dell'articolo

Ho finalmente deciso di utilizzare la nuova interfaccia di Midjourney e utilizzare i moodboard. Un altro bel passo in avanti ~~nella rapina dei diritti di autore~~ nel poter personalizzare le immagini. Questa puntata ho deciso quindi di mettere immagini tutte più o meno coerenti tra di loro. Se ti piace l'esperimento potrei continuare.

Come al solito trovi i prompt qui: https://manolo.macchetta.com/i-prompt-di-midjourney-su-notion/

Gli LLM balleranno il tango.

Il tango di cui parlo è quello linguistico: quando parliamo di persona, ci scambiamo costantemente l'audio e contemporaneamente usiamo dei segnali per sapere quando ascoltare e interrompere se uno di noi ne sente il bisogno di entrare nella conversazione. In pratica: non si parla quasi mai a turni.

La Kyutai Labs ha pubblicato Moshi, un modello che presenta molte innovazioni tecniche. Una importante è stata quella di consentire flussi audio bidirezionali dall'utente a Moshi e da Moshi all'utente. Esso ascolta tutto il tempo e spetta al modello decidere quando rimanere in silenzio e quando parlare.

Oltra a questo Moshi ha incluso anche altre innovazioni, come un “monologo interiore” che genera simultaneamente testo accanto all'audio per migliorare la qualità delle risposte e la codifica dell'audio.

My two cents

La velocità con cui si sta muovendo il mondo fa girare la testa. OpenAI non ha ancora nemmeno fatto in tempo a cogliere i frutti del suo lavoro e già non è più al limite dell'innovazione tecnologica.

Come nota tangente: stanno anche sviluppando dei modelli a diffusione ma per i testi invece che le immagini (a costi e tempi notevolmente più bassi). il ruolo degli LLM potrebbe ridursi in futuro.

Fammi rincarare la dose: Manus rende ChatGPT vecchio?

Sai che non mi piace fare i titoli clickbait, immagini di anteprima dove faccio la faccia da pirla (nel limiti di quello che mi ha dato madre natura, ovviamente) e non mi piace gridare al game-changer ogni settimana. Non l'ho fatto con Deepseek, ma forse lo farò con Manus, anch'ess0 cinese.

Al momento è solo su invito, ma da quello visto in giro sta facendo cose incredibili, alla pari di quello che OpenAI promette di fare col suo piano da 20mila euro (20 MILA)

Manus AI ha confermato l’integrazione di Claude 3.5 Sonnet, modelli Qwen ottimizzati e framework open-source come Browser Use.

Il capo ricercatore Yichao “Peak” Ji ha descritto l’architettura multi-agente del sistema: un executor agent gestisce l’interazione con l’utente, rimanendo isolato dai moduli di pianificazione e conoscenza. Questo design riduce la lunghezza del contesto e limita i possibili jailbreak.

Attualmente, il team sta testando Claude 3.7 Sonnet, che, secondo Ji, mostra prestazioni migliorate.

La cosa buffa è che Manus ha indicato la strada ma probabilmente non sarà in grado di coglierne i frutti, essendo dipendente da molte tecnologie esterne.

Probabilmente un Make.com e uno Zapier sono App più papabili se si arrischiano nel salto.

Non abboccare all'amo.

L'articolo "Don't take the bait" racconta la storia di come il giornalismo locale è entrato in crisi e come The Londoner sta cercando di offrire un'alternativa di qualità.

Nulla di davvero nuovo, ma sapere che finalmente anche alcuni giornali locali hanno preso coscienza del problema delle news e vogliano risolverlo, merita una menzione. Il sito è fatto con Ghost, tra l'altro.

L'articolo in brevissimo

A un certo punto della storia dell'essere umano le letture online hanno superato il numero di copie delle riviste cartacee.

A questo si è aggiunta una verticalizzazione di altri servizi (chi compra ancora il corriere per leggere le offerte di lavoro? Beh una volta lo facevo).

Le grandi menti che gestivano le riviste hanno deciso di abbandonare la cultura della qualità, che li differenziava dall'online, per andare a competere in un'arena che giocava un gioco diverso. Risultato?

Licenziamenti di migliaia di giornalisti
Redattori sotto pagati un tot al kilo.
Riduzione drastica delle pagine dei giornali
L'ascesa della cultura del "click" come nuovo obiettivo primario.

Il modello basato sui click ha trasformato il giornalismo locale in un contenitore di clickbait, popup pubblicitari e articoli sensazionalistici. Poiché ogni click vale solo pochi centesimi, c'è una pressione costante per generare quanti più click possibile, sacrificando la qualità e l'approfondimento giornalistico in favore della quantità.

The Londoner torna sui suoi passi, puntando su:

Giornalismo di qualità e approfondito
Inchieste significative sulla città di Londra
Un modello di business basato sugli abbonamenti dei lettori invece che sulla pubblicità.

My two cents

Il momento migliore per piantare un albero era 10 anni fa, il secondo momento migliore è oggi. Se il vostro sito vive grazie ai click potrebbe avere i giorni contati. troppe variabili, di cui non hai controllo, stanno remando contro.

Questo vale per le riviste cartacee, ma anche per quelle online, ma anche per i creators. Se si fa una gara al ribasso sulla qualità stai sicuro che andrai a perdere, ci sarà sempre qualcuno che costa meno e produrrà titolo più interessanti dei tuoi. L'unico vero valore scarso è la capacità di concentrarsi e produrre approfondimenti di qualità. In un mondo di TikTokers sii un Phd. Anche se sei un Tiktoker :-)

Cosa vuol dire questo?

Trovati una hyper nicchia.
Creati un personal branding.
Utilizza piattaforme terze sapendo che potrebbero esserti tolte.
Impara le basi del copy e delle Ads Online.
Costruisciti il tuo spazio che sia il più resiliente possibile ai capricci delle piattaforme appena citate.
Trovati 1000 veri fan disposti a pagare 9 euro al mese per sostenere quello che fai.
Oppure non fare nulla di tutto questo e pascola per il gusto di farlo, come sto facendo io con questo blog. Vibing is cool, mate!

La tecnologia ci aiuterà?

Mi spingo a dire che la possibilità di crearsi dei Social Network Federati (ActivityPub o altri) potrebbe essere la chiave dell'indipendenza futura.

Mi immagino un sito verticale dedicato a una nicchia che può fare da hub, e che usando un protocollo federato può andare a propagarsi sui social più generalisti...

ma interessa davvero a qualcuno qui se mi Nerdifico a parlare di ActivityPub?

Compiti per le vacanze:

Di cosa potresti scrivere / parlare per ore?
Chi conosce questa tua passione?
Cosa ti blocca ad diffonderla? Problemi tecnologici ? Emotivi? Produttivi?
La tecnologia a supporto del tuo sito supporta ActivityPub?
Quanto sei come brand dipendente dai social?
Quando sei dipentente dalle ricerche organiche?
Stai pensando a qualche modo per liberarti dal giogo?

La partita delle ricerche è in svolgimento, inizia adesso quella degli agenti... e domani?

Creata con Midjourney - trovi il prompt qui: https://manolo.macchetta.com/i-prompt-di-midjourney-su-notion/

La tecnologia delle AI generative, per quanto abbia davanti tantissima strada da fare, è matura abbastanza per renderci la vita più facile.

Quello che manca è tutto lo strato delle Applicazioni.

Quando è uscito ChatGPT 3.5 le persone hanno iniziato a usarlo erroneamente come un motore di ricerca: giusto o sbagliato le aziende si sono messe di gran lena per non deludere il pubblico.

Abbiamo quindi la ricerca di ChatGPT, che conosciamo tutti al quale si aggiunge SearchGPT.

Gli altri non stanno a guardare

Le strade sono state diverse ma tutte sono passate per modelli di ragionamento: assodato che ogni AI generativa degna di questo nome ne abbia uno adesso possiamo utilizzarlo per fare richerche e proporre soluzioni.

Grok 3 DeepSearch - "semplice" Agente di ricerca. Questo strumento sfrutta dati in tempo reale dal web e approfondimenti dalla piattaforma X, permettendogli di sintetizzare informazioni e generare report dettagliati su vari argomenti.
Anthropic dopo il notevole Sonnet 3.7 promette un DeepSearch.
Perplexity che è nato come motore di ricerca e analisi ha recentemente annunciato diverse innovazioni, tra cui il browser Comet. Comet introduce un concetto chiamato "agentic search", che permette non solo di recuperare informazioni, ma anche di eseguire compiti in autonomia.
La regina della ricerca, Google non sta con le mani in mano: Google AI Mode che permette la risposta alle domande senza uscire da google. Questo vuol dire che il tuo sitarello morirà male, ma "hey, it's the future!" già disponibile sui Labs.
Amazon - Furbescamente si tiene fuori dalla battaglia ma ha promesso agenti per AWS...
Meta - dopo i vari Lama e il (possibile) furto di tera e tera di libri sta pensando di rilasciare la propria AI anche ai non smanettoni e fare in modo che abbia agenti di ricerca.
DeepSeek ne hanno parlato tutti.
Qwen di Alibaba ha dei risultati paragonabili a deepSeek v1 a un sesto del costo.
OpenAI - Operator - L'azienza ha appena annunciato dei piani da migliaia di euro al mese per accedere agli agenti
Google Mariner - è più segreto rispetto a Swarm ma diamogli qualche settimana al massimo e vedremo anche quello, probabilmente con un altro nome.
Apple - sembra quella che più sta guardando il da farsi. il nuovo siri è promesso per il 2026 (!). Sono a un biovio: strategia corretta data la presente frenesia di bruciare denaro oppure è un Kodak-moment?
Microsoft si è parzialmente staccata da OpenAI. Benchè sia il più grosso tra investitori iniziali ha sviluppato il proprio modello e sta integrandolo nei propri sistemi.

Fiuuu, quanta roba nuova. E non contiamo nemmeno i passi da gigante degli ultimi 30 mesi.

Facciamo un po' la conta di cosa abbiamo:

I modelli LLM che dialogano in modo esaudiente sono praticamente una commodity. Sono ancora molto migliorabili, e credo che ChatGPT4.5 sia una stepping stone importante, ma nessuno può lamentarsi della qualità attuale.
Oltre a questo abbiamo modelli di diffusione linguistica ancora più veloci.
Di Moshi e la capacità di capire quando intervenire e quando no ne ho parlato in apertura.
Modelli multi-modali - leggono documenti, ascoltano e rispondono tramite voce, comprendono le immagini e riconoscono il testo scritto a mano: abbiamo anche i primi esempi di riconoscimento dei contenuti video, mentre Tesla ha il suo modello capace di muoversi nello spazio 3D.
Modelli di pensiero più o meno affidabili che permettono catene di ragionamento.
Queste catene di ragionamento permettono finalmente di "agganciare" varie cose alle AI e permettergli di operare in maniera indipendente. Questo ha dato il via all'epoca degli Agenti.
La possibilità di creare soluzioni software senza conoscere troppo il codice è già il presente. Mi aspetto ulteriori miglioramenti anche qui. Ognuno potrà crearsi il proprio software.
Androidi che più o meno camminano, si muovono e non sono ingombranti sono annunciati praticamente ogni mese da una startup diversa.

Hai capito dove sto andando a parare? E' probabile che quello che stiamo vedendo è solo il seme della nascita degli androidi funzionanti: La corsa di tutte le Big Tech probabilmente punta in quella direzione.

Magari in un'altra puntata vediamo chi è più probabile che riesca per primo.

"Manò, non ci parli più di chip?"

hai ragione ve l ho menata per un anno su come la battaglia si giocherà sul terreno dei chip e poi sono stato super silenzioso per un dei mesi.

Vi droppo due notizie:

Zuchongzhi 3.0: nuovo record nel quantum computing

Gli scienziati cinesi hanno presentato Zuchongzhi 3.0, un computer quantistico da 105 qubit. Sviluppato dal team guidato da Pan Jianwei e Zhu Xiaobo, esegue calcoli quantistici un quadrilione di volte più velocemente rispetto ai supercomputer più avanzati e un milione di volte più veloce rispetto ai risultati più recenti di Google.

Dotato di 182 coupler e un controllo migliorato dei qubit, Zuchongzhi 3.0 supera il suo predecessore, rafforzando la posizione della Cina nella corsa globale alla supremazia quantistica. (ne avevamo parlato qui in tempi non sospetti -2023)

Lo studio, pubblicato su Physical Review Letters, evidenzia progressi in correzione degli errori quantistici, entanglement e simulazione. Il team sta attualmente lavorando alla correzione degli errori, un passo cruciale verso il quantum computing su larga scala.

TSMC investe 100 miliardi di dollari negli Stati Uniti

Il presidente di Taiwan Semiconductor Manufacturing Company (TSMC), C.C. Wei, ha annunciato un investimento da 100 miliardi di dollari negli Stati Uniti per costruire nuove linee di produzione e centri R&D, rispondendo all’elevata domanda dei clienti.

Wei ha sottolineato che la richiesta è così alta che le capacità produttive dei tre stabilimenti in Arizona sono già completamente prenotate per il prossimo anno. Questo scenario rende necessaria un’ulteriore espansione della capacità produttiva negli Stati Uniti.

Su questa ultima notizia, sono curioso di capire come Taiwan intende gestire il rischio invasione da parte della Cina, dato che il deterrente di difesa degli Stati Uniti è stato sempre molto forte.

L'angolo Cyberpunk & Black Mirror

La fantascienza è solitamente una metafora dei tempi attuali o monito a quello che succederà se non si prendono decisioni importanti.

Questo 2025 è il momento di Black Mirror.

Una delle puntate di punta della terza stagione è Nosedive. L’episodio è ambientato in un mondo in cui le persone possono valutare ogni cosa usando i loro smartphone: per ogni interazione col prossimo influenza lo status socioeconomico.

Nel 2016 era una buffa presa in giro dei social, pochi anni dopo abbiamo smesso di ridere quando la Cina ha introdotto i crediti sociali. Tutti abbiamo concordato che nessuno vorrebbe vivere in un mondo del genere.

Nessuno finchè non c'è in ballo la "sicurezza": Il Dipartimento di Stato intende revocare i visti di un gran numero di stranieri (in questo caso per lo più studenti manifestanti), basandosi in parte su un’analisi AI dei loro post sui social media.

Fatemi citare Benjamin Franklin prima di continuare.

Chi è pronto a dar via le proprie libertà fondamentali per comprarsi briciole di temporanea sicurezza, non merita né la libertà né la sicurezza. /Those who would give up essential Liberty, to purchase a little temporary Safety, deserve neither Liberty nor Safety
- Benjamin Franklin (1706 – 1790)

Un alto funzionario ha dichiarato: “Sarebbe negligente per un dipartimento che prende sul serio la sicurezza nazionale ignorare le informazioni pubblicamente disponibili sui richiedenti [del visto] in termini di strumenti AI. L’AI è una delle risorse a disposizione del governo ed è molto diversa da dove eravamo a livello tecnologico decenni fa.”

Al momento, i bersagli sono (presunti) sostenitori di Hamas. Ma sappiamo che si potrebbe sostituire Hamas con una qualsiasi cosa; in questo caso è bastato manifestare.

Siamo sicuri di voler vivere in un mondo in cui il Dipartimento di Stato possa giudicare chiunque, in qualsiasi momento, come una “minaccia” per lo Stato?

E attenzione questa non è una domanda retorica. Io mi questiono molto su dove tracciare la linea: quando ci auguriamo un controllo a tappeto dei social per andare a prendere i delinquenti, chi prende il reddito di cittadinanza senza che ne abbia i requisiti o evade le tasse pensiamo con la pancia oppure abbiamo ben chiara la direzione in cui speriamo andrà il mondo? Dove mettiamo i paletti? Quando succederà in Europa avremo un'opinione formata oppure dovremo allattarci dalla mammella di qualche giornalista?

AI e pubblicità

Ne parlo da un po' di mesi con i miei clienti: i risultati delle pubblicità tramite AI sono quasi sempre molto buoni, addirittura sospettosi nella loro bontà.

Quello su cui invece sono indietro è la capacità di creare copy con mordente o immagini semi-decenti.

io la butto li: come sarebbe creare un mini-gpt (o qualcosa di simile) in modo che il potenziale cliente interroghi direttamente la pubblicità? Creare un agente pubblicitario? Google e Meta che conoscono tantissimo di te potrebbero davvero essere ottimi venditori.

La Gragnuola

ElevenLabs

Eleven Labs è integrato nel Marketplace di Google. Non so ancora cosa vuol dire questo ma avere un buon motore vocale integrato dentro google è ottimo (immaginate i video del tubo tradotti e doppiati con la tua voce in ogni lingua!)

Anthropic

Anthropic raccoglie 3,5 miliardi di dollari con una valutazione di 61,5 miliardi. Dopo il lancio di Claude 3.7 Sonnet e Claude Code, l’investimento sarà destinato a potenziare lo sviluppo dell’AI, espandere la capacità computazionale, migliorare la ricerca sull’allineamento e accelerare l’espansione internazionale.

OpenAI

Il CEO di OpenAI, Sam Altman, ha annunciato che GPT-4.5 verrà rilasciato gradualmente agli utenti Plus nei prossimi giorni. In un’altra dichiarazione, Altman ha lasciato intendere un miglioramento significativo nella generazione di immagini di ChatGPT. (peccato era diventata una mia euristica per capire chi parlava di AI senza investirci le energie)

Microsoft

Microsoft ha presentato Dragon Copilot, un assistente AI vocale progettato per convertire automaticamente le conversazioni tra medici e pazienti in documentazione medica strutturata. Il sistema si basa su un database di oltre 15 milioni di conversazioni mediche, utilizzando modelli AI avanzati per garantire precisione e coerenza nella generazione dei documenti. Microsoft non ha rivelato il modello linguistico alla base di Dragon Copilot, ma l’annuncio arriva poco dopo la presentazione dei nuovi modelli Phi-4.

CoreWeave

CoreWeave - azienda che affitta GPU, firma un contratto da 11.9 Miliardi di dollari con OpenAI pochi mesi prima di della propria IPO, alzando la valutazione a 35 Miliardi. Il principale cliente fin'ora è stato Microsoft. Prima che vi venga voglia di prendere le Azioni quando escono. guardate bene ricavi e perdite.

Waymo

Stavo preparando un aggiornamento sui robo-taxi e ho trovato questo grafico sull'uso di Waymo a San Francisco. Non posso promettere sulla correttezza dei dati (mi sembra sospetto l'1% di market share monetario nel 2023). Ma lo lascio qui a maturare per il futuro.

E anche questo Mak's file è andato.

Sono stato un po' più monotematico del solito, ma ho come la sensazione che siamo ancora una volta in un momento di cambiamento epocale e ci tenevo a rendervi partecipi. Tra qualche anno potrete dire ai vostri nipotini "io c'ero".

Probabilmente il prossimo articolo sarà monotematico sulle auto a guida autonoma.

Abrazo

Manolo

Sommario

Le immagini a Corredo dell'articolo

Gli LLM balleranno il tango.

My two cents

Fammi rincarare la dose: Manus rende ChatGPT vecchio?

Non abboccare all'amo.

L'articolo in brevissimo

My two cents

Cosa vuol dire questo?

La tecnologia ci aiuterà?

Compiti per le vacanze:

La partita delle ricerche è in svolgimento, inizia adesso quella degli agenti... e domani?

Gli altri non stanno a guardare

Facciamo un po' la conta di cosa abbiamo:

"Manò, non ci parli più di chip?"

Zuchongzhi 3.0: nuovo record nel quantum computing

TSMC investe 100 miliardi di dollari negli Stati Uniti

L'angolo Cyberpunk & Black Mirror

AI e pubblicità

La Gragnuola

ElevenLabs

Anthropic

OpenAI

Microsoft

CoreWeave

Waymo

You might also like...

OpenAI: Quando utilizzare i CustomGPT e quando i Progetti. (aggiornata 2026)

Memory Updated...10

Memory Updated...9

Memory Updated... 8 (Dicembre 2025)

Vending-Bench: come testare un Agente nel mondo reale (o quasi)