Vending-Bench: come testare un Agente nel mondo reale (o quasi)
Approfondimento su Vending Bench. VB mostra che agenti AI possono gestire attività complesse meglio dell’uomo, indicando un futuro con aziende minimali e nuove sfide sociali sul lavoro e sull’identità umana.
Memory Updated... 4 (Agosto 2025)
OpenAI ha davvero sbragato queste due settimane con le novità. Ma oltre a questo sono uscite cose incredibili anche da DeepMind, Qwen, e anche in Europa con Mistral e Fastweb.
Memory Updated... Episodio 1
Memory Update... è la rubrica destinata agli aggiornamenti per quanto riguarda le AI. Vediamo cosa è successo nelle prime 3 settimane di Maggio 2025.
Episodio 56.2025: DNA & Robots, Papiri & Newsletter.
Volevo uscire settimana scorsa, ma sto facendo delle docenze e queste mi stanno prendendo molte più energie di quanto programmato