6 min read

Week 8.2023 : Video giochi, Audiolibri, lavori super produttivi e lavori che ancora non esistono.

Parliamo di: AI per allungare la vita dei video giochi, Apple nell bufera per il suo servizio di audiolibri, alcuni spunti di pensiero sulla KPI "fatturato per dipendente", E i risultati incredibili del multimodal language model
Immagine si una donna magrissima vestita come una dea greca che si erge dal mare, sfondo del cielo blu
Prompt: lunghissimo - lo trovi qui: https://manolo.macchetta.com/i-prompt-di-midjourney-su-notion/

Benvenuti alla ottava settimana del 2023 dei Mak's Filez. Ogni settimana, leggo decine di pagine di contenuti su Digital Transformation, Digital Marketing, AI & dintorni e ve li ripropongo in questa newsletter.

Parliamo di: AI per allungare la vita dei video giochi, Apple nell bufera per il suo servizio di audiolibri, alcuni spunti di pensiero sulla KPI "fatturato per dipendente", E i risultati incredibili del multimodal language model

Una AI che gioca come un pro arriva su Gran Turismo 7

Un tizio con un casco e una tuta gioca a un videogioco di F1
Prompt: soroyama Robot playing Gran Turismo 7 video game; 4k, ultra detailed; action; gopro; soroyama --ar 16:9

L'anno scorso, Sony AI e Polyphony Digital, gli sviluppatori di Gran Turismo, hanno sviluppato una AI in grado di gareggiare a livello dei top player.
GT Sophy arriva a Gran Turismo 7 come parte dell'aggiornamento 1.29 per un tempo limitato. Fino alla fine di marzo, i giocatori potranno cimentarsi contro Sophy nella modalità GT Sophy Race Together. C'è anche una partita uno contro uno in cui gareggi con Sophy su auto identiche, così puoi vedere quanto sei più lento dell'IA.
Kazunori Yamauchi, presidente della Polyphony Digital dice
"A differenza della convenzionale IA integrata, GT Sophy guida con continuità in un'ampia varietà di situazioni, il che consente agli utenti di godersi l'emozione di una battaglia ravvicinata come se stessero giocando contro un pilota professionista."

Sony afferma che raccoglierà feedback su questa funzionalità iniziale e lo utilizzerà per migliorare l'intelligenza artificiale per futuri aggiornamenti.

I miei due cents

non sono (più) un video giocatore, ma avere un campione che mi mostra come fare in determinati passaggi potrebbe essere un gran bel bonus per darmi un sensazione di miglioramento e allungare la vita del gioco. Bel colpo Sony!


I data set sono campo minato

cartone di un tizio che grida come un pazzo al cellulare
prompt: a funny cartoon where a smiling man, is walking on a beach full of spikes and other dangerous things, he has a smarphone and an angry spirit is coming out of it, screaming, funny --ar 16:9

Il mese scorso Apple ha rilasciato una serie di  Audio Books narrati da voci generate dall'Intelligenza Artificiale.
Ovviamente i professionisti del settore hanno sentito subito puzza di padulo. I narratori di audiolibri temono che Apple abbia usato le loro voci per addestrare l'IA.
Wired riporta che Spotify, padrona di Findaway Voices, ha messo in pausa l'accordo che consentiva ad Apple di utilizzare alcuni audiolibri per addestrare modelli di machine learning.
Questo è successo dopo che diversi narratori hanno scoperto una clausola nei contratti tra autori e Findaway Voices che dava ad Apple il diritto di "utilizzare i file degli audiolibri per la formazione e i modelli di machine learning".
Apple si difende dicendo che la utilizzano solo per libri a bassa tiratura per cui non era economico assumere un attore.

I miei due cents sulla faccenda.

Il fatto di inserire delle clausole per il potenziale utilizzo è cosa buona e giusta, inserirle così di soppiatto molto meno.
Trovo anche poco etico che si possano prendere delle voci pagarle una volta sola e poi avere guadagni infinti. Un modello di Biz pay-per-use mi sembra molto più ragionevole.


Revenue per employee: dove vogliamo andare?

il Buon Marco di Ragionamenti Finanziari posta questo grafico sul suo gruppo di telegram: Quanti lavoratori ha bisogno una S&P500 per fattturare 1 Milione?

I dati (incrociati su statista) sembrano essere attualizzati con l'inflazione e dimostra il trend ormai incontenibile: servono in media 2 persone per far ricavare un milione di euro a un'azienda.

Grafico di statista
Average revenue per employee in the United States in 2018, by sector - Statista

I miei due cents:

Se da una parte vediamo che servono sempre meno persone, dall'altra non è indicato quanto sono salite le spese IT.
Leggevo infatti uno studio in cui si era visto che le spese in Infrastruttura sono cresciute esponenzialmente dagli anni 90, ma con ricavi marginali decrescenti.
Ci sarebbe anche da guardare bene quali settori hanno questa produttività e quali no.
Dopo bisogna capire se quelli "meno produttivi" lo sono perchè labour intensive oppure hanno altri colli di bottiglia nella mancata digitalizzazione
Continuiamo: se sono labour intensive come potrà l'AI sostituire questi posti?
E poi la domandona: se l'AI sostituisce tutte le persone cosa faremo tutti dalla mattina alla sera senza soldi e con le AI che ci hanno pure tolto le attività creative?

Le risposte sono meno ore di lavoro (la settimana lavorative di 4 giorni sembra essere un successo incredibile, anche per le aziende), tassare le AI, e una sorta reddito di cittadinanza... ma qui mi sto impaltanando in temi più grossi di me. Porterò la discussione su Facebook dove invece è pieno di economisti :-)


I lavori del futuro che ancora non esistono

Parlando di lavoro che non ci sarà. Diamo una botta di ottimismo: molti dei lavori del futuro non esistono nel presente.
E, perdonate il gioco di parole, non è nemmeno una novità.

  • Nel 2000 erano collegati all'area Legale, Management e architettura
  • 20 anni dopo e ci sono data scientist, blockchain architect, sicurezza informatica
  • Tra 20? Non ne ho idea!

I miei due cents

Smetti di ascoltare gli altri quando ti consigliano la materia su cui studiare per trovare lavoro (a meno che siano Notai, loro sono immortali :-)
Ascolta invece i consigli di chi ti da delle direzioni. Alcune skill che prima erano sufficienti per trovare lavoro (excel, l'inglese, tanto per le più gettonate nei CV) non sono nemmeno da scrivere da quanto sono base.
La velocità con cui sta cambiando il mondo è talmente alta che ogni previsione si schianterà contro la realtà.
L'unica strada è rimanere aperti al cambiamento. Come dice il claim del sito: il futuro è già qui, solo non è equamente distribuito.
Rimaniamo con le orecchie aperte al cambiamento. Io da parte mia vi sto dando un po' di dritte sulla direzione che sta prendendo il mondo.


Primi risultati dei multimodal language model

Se vi siete chiesti: "Perché ChatGPT non usa un banale calcolatore quando gli chiedono di fare i conti? Perchè gli chiedo delle cose di musica dice un fracco di sciocchezze?" settimana scorsa è uscito un paper scientifico chiamato Multimodal Chain-of-Thought Reasoning in Language Models in cui si rispondeva esattemente a questo.

Una catena di pensiero è una della basi del funzionamenti dei Large Language Model (LLM) e già nella mia guida base sul prompting di ChatGPT ai primi di gennaio esortavo a chiedere la catena di pensiero per avere dei risultati migliori.

Anatomia di un Prompt: Introduzione
Cosa è un prompt? I modelli di intelligenza artificiale generativa si interfacciano con l’utente attraverso input prevalentemente testuali. Dici al modello cosa fare attraverso un’interfaccia testuale e il modello cerca di portare a termine l’attività. Quello che dici al modello di fare in senso la…

Ovviamente i paper è molto più complesso di così e se qualcuno dei lettori riesce a comprenderlo bene lo prego di scrivermi per spiegarmelo :-)

Multimodal-CoT devasta ChatGPT

Ma veniamo a noi, usando il Multimodal-CoT, che è un LLM quasi solo di nome dato che ha "solo" 1 miliardo di parametri, si sono visti dei risultati strepitosi nei test a crocette. Strepitosi da fare +16% rispetto a ChatGPT e superare anche le prestazioni umane.

I miei due cents

Avere una AI conversazionale che sa dove andare a prendere i dati, che riesce a prendere in input non solo testo, ma anche immagini, audio e video è davvero quello che tutti si aspettano che succeda.
Google da questo punto di vista ha già tutto e se fate una ricerca sul motore di ricerca con un filo più di curiosità ve ne accorgerete (è già multimodale in input e in output).
Manca solo il riconoscimento del pubblico, ma io aspetto Bard con molta attenzione


Chi è iscritto al gruppo su Facebook AI News Italia ( https://www.facebook.com/groups/ainewsitalia ) sa quante cose sono uscite relative a Stable Diffusion che non ho riportato qui. Iscrivetevi al gruppo.

La guida ai prompt che ho iniziato e doveva essere in 2-3 parti è lunghissima e la pubblicherò spezzettata.

Devi dirmi TU se vuoi essere avvisato quando escono gli articoli a riguardo oppure se ti interessano solo i Mak's File.

Passo e chiudo, Un abrazo!

Manolo