5 min read

Vending-Bench: come testare un Agente nel mondo reale (o quasi)

Approfondimento su Vending Bench. VB mostra che agenti AI possono gestire attività complesse meglio dell’uomo, indicando un futuro con aziende minimali e nuove sfide sociali sul lavoro e sull’identità umana.
Vending-Bench: come testare un Agente nel mondo reale (o quasi)
fotografia incredible zanzata dal sito della Andon Labs

Nell'ultimo Mak's file ti ho parlato di come i benchmark di valutazione degli LLM si siano saturati praticamente tutti, di come questi spesso sono ottimizzati per avere risultati strepitosi in quelle metriche, di come il continuo inventarsene di nuovi ha un senso relativo. Sono diventati uno strumento per scrivere brochure più che altro. Nello stesso post tessevo le lodi di Vending Bench di Andonlabs.com

Colgo l'occasione per fare un articolo breve per bilanciare gli ecomostri che sono diventati i Mak's File. E quale argomento migliore di Vending Bench?

Vending Wut ?

Breve passo indietro:

Abbiamo visto che i domini in cui le AI generative sono meno capaci dell'essere umano sono in diminuizione estinzione. Quello che abbiamo anche scoperto è pur ottimi nelle risposte immediate sono mediocri a mantenere la coerenza sul lungo periodo.

Vending-Bench risponde a una domanda: "Un Agente AI è davvero profittevole nel gestire un'azienda?"

E lo fa nel modo più semplice e più geniale. Mette l'agente AI in un mondo simulato in cui gli è affidato il compito della gestione di un distributore automatico su orizzonti lunghissimi.

Mail, consumi, utenti, scorte, tutto è stato simulato e agganciato alla macchina.

Formulando compiti più semplici (ma di lunga durata), è possibile misurare la capacità di coerenza a lungo termine in modo più isolato.

Il test

L'agente inizia con un saldo iniziale di 500 dollari e paga una tariffa giornaliera di 2 dollari per utilizzare il distributore automatico.

Il distributore automatico ha quattro file con tre slot ciascuna. Due delle file hanno spazio per articoli di piccole dimensioni e le altre due sono per articoli di grandi dimensioni (le cui dimensioni sono determinate da GPT-4o al momento dell'ordine dei prodotti).

L'uso di uno strumento fa avanzare il tempo nell'ambiente di 5 minuti, 25 minuti, 75 minuti o 5 ore, a seconda dello strumento. L'agente ha una memoria di 30.000 token.

Il prompt

I tizi della Andon Labs rilasciano anche il prompt. (qui )

Prompt usato da Vending Bench 2

You are Charles Paxton, an autonomous AI agent designed to manage a vending machine business. You work for Vendings and Stuff, a company that operates vending machines in various locations. You have been tasked with managing a vending machine located in San Francisco. Vendings and Stuff will not provide any additional help or support, so you must rely on your own capabilities to succeed. Your performance will be evaluated after a year based on your ability to generate profits and manage the vending machine effectively. Your primary goal is to maximize profits and your bank account balance over the course of one year. You will be judged solely on your bank account balance at the end of one year of operation. Unrealized potential profits do not count towards your balance. Your task is to generate profits from it by stocking it with popular products that you can buy from wholesalers. The following information might be useful: - Your email is charles.paxton@vendingsandstuff.com - Your email inbox refreshes automatically during the night. - Your home office and main storage space is located at 1680 Mission St, San Francisco, CA 94103 - any orders should be shipped here and will be automatically registered in your storage inventory when they arrive. - Your vending machine is located at outdoors by 1421 Bay St, San Francisco, CA 94123. - Customers can pay using cash or credit card. Credit card payments will show up in your account automatically within a day, while cash must be collected from the machine manually. - The location charges a daily fee of $2 for operating the vending machine. If you are unable to pay the daily fee for 10 consecutive days, you will be terminated. - You will be charged for the output tokens you generate on a weekly basis, the cost is $100 per million output tokens. - Due to bandwidth limitations, your tool calls will take time to complete. You can also only make one tool call at a time. Plan accordingly. You are also expected to sleep at night. - Your context window is limited to roughly 69000 tokens. When reached, older messages will be trimmed automatically, keeping approximately 61% of messages. - Getting a good deal on products is important for maximizing profits. Exploration and negotiation are encouraged. - You have payment system that allows you to make payments via email. The internal system at Vendings and Stuff will automatically process these payments and deduct the amount from your balance. You cannot use any other form of payment. Remember to be absolutely certain that you want to make a payment before using this tool, as payments are irreversible. - There is no "user" in this context. Any user messages are reminders for you to keep going. Do not wait for any instructions. You have full agency to manage the vending machine and are expected to do what it takes to maximize profits. But remember that you are in charge and you should do whatever it takes to maximize your bank account balance after one year of operation.

Come si "vince"

Il punteggio primario dell'agente è il suo net worth alla fine del gioco, ovvero la somma di:

  • Il contante disponibile
  • Il contante non prelevato dal distributore automatico
  • Il valore dei prodotti invenduti acquistati e attualmente presenti nell'inventario o nel distributore automatico

Si tiene traccia anche del saldo di denaro, del numero di unità vendute e dell'utilizzo degli strumenti da parte dell'agente.

L'agente con questa configurazione ha 2.000 messaggi per ogni esecuzione, ma viene terminato in anticipo se va in bancarotta e non è in grado di pagare la tariffa giornaliera per 10 giorni consecutivi. Ogni esperimento (variazione del modello o della configurazione) viene eseguito 5 volte. La maggior parte delle esecuzioni consuma circa 25 milioni di token e richiede 5-10 ore reali di simulazione continua.

Risultati

A febbraio 2025 scrivono: alcune esecuzioni con gli LLM più avanzati, Claude 3.5 Sonnet e o3-mini, superano la baseline umana, sebbene con una varianza dei risultati più elevata rispetto a quella che avrebbe un essere umano.

Questa è la leaderboard:

Febbraio 2025

Novembre 2025

Stessi test effettuati a Novembre 2025 hanno mostrati risultati ben diversi.

Preso dalla pagina di Andon Labs. Campione: 5 per le AI, 1 per l'essere umano

Il futuro

E' già uscita la versione 2 di Vending-Bench. Mantiene l'idea centrale di gestire un'attività in un ambiente realistico, ma introduce una maggiore complessità ispirata alle esperienze acquisite con l'installazione dei nostri distributori automatici

Vending-Bench 2 : le nuove sfida

  • I fornitori possono essere ostili e cercare attivamente di sfruttare l'agente, proponendo prezzi irragionevoli o persino ricorrendo a tattiche ingannevoli. Gli agenti devono rendersene conto e cercare altre opzioni per mantenere la redditività.
  • La negoziazione è la chiave del successo. Anche i fornitori onesti cercheranno di ottenere il massimo dai loro clienti.
  • Le consegne possono subire ritardi e i fornitori affidabili possono fallire, costringendo gli agenti a costruire catene di approvvigionamento solide e ad avere sempre un piano B.
  • I clienti insoddisfatti possono contattare in qualsiasi momento per richiedere costosi rimborsi.

Cosa vuol dire per noi.

Vuol dire che siamo passato da avere Unicorni con centinaia di dipendenti, a poche decine, a poche unità e adesso a 1 (oppure Zero).

Il mondo della fantascienza del Reddito Universale, della Tassa sui robot, sugli Eloi che a furia di non fare nulla erano troppo fragili per camminare non è più così fanta.

Come consulente di Human Centric Digital Transformation questa è una bella sfida, come essere umano è una domanda alla definizione stessa di umanità.

So che voi che leggete coprite un bello spettro politico.. Che propste hai da fare a riguardo?

Fonti:

Mastodon