GPT Image 2, la guida con Framework & Esempi
Se un mesetto fa OpenAI sembrava aver perso i favori della "faccebuffe social", dopo il rilascio di ChatGPT 5.5 e GPT Image 2, le banderuole del web sembrano aver sentito il vento che tirava.
Anche se è ancora presto per creare "la Guida Definitiva a GPT Image 2", posso dire che sono discretamente fiducioso nel proporvi un qualcosa che funzionerà molto bene anche nel futuro.
Questo perchè il generatore di immagini di ChatGPT segue le regole di prompting della chat e quindi quando si ha un framework solido, tutto diventa molto facile.
I miei studenti vedranno, per l'ennesima volta, l'utilità del Framework CIDI, chi mi segue da poco potrebbe perdersi dei pezzi, scrivimi pure che ti rispondo.
Cosa Vedremo in questa guida:
Breve Recap
Non è questo il luogo per parlarvi di come fare prompt engineering, io per i prodotti OpenAi ho sposato la causa del CIDI. questo perchè semplice e molto versatile.
CIDI? chi è questa Cerneade?
Non mi prendo nemmeno la gloria per la creazione del framework (l ho imparato da Gialuca Mauro, di AI Academy). In brevissimo:
Contesto
Cosa succede, il tuo ruolo, le abilità
Istruzioni
Cosa ti aspetti di ottenere
Dettagli
Come ti aspetti che sia l'output
Input
qui si mettono i file di reference.
Grazie al CIDI si possono fare prompt estremamente semplici, quanto dei GPT personalizzati estremamente complessi... e come vedremo adesso anche delle immagini.
Le tre modalità: Creare, Modificare, Unire.
Con GPT image 2 si possono fare 3 cose essenzialmente:
- Creare un'immagine,
- modificare un'immagine pre-esistente,
- unire delle immagini per crearne una nuova.
vediamo queste tre modalità
Creare con GPT Image 2
GPT Image 2 infatti premia la struttura. Usare un framework simile al CIDI, ci permette di avere risultati coerenti.
# Contesto della Scena: [dove avviene, momento della giornata, sfondo, ambiente] # Istruzioni sul soggetto: [chi o cosa è il focus principale] # Dettagli: [materiali, abbigliamento, texture, illuminazione, angolo di ripresa, tipo di lente, composizione, mood] ## Use case: [foto editoriale / mockup prodotto / poster / schermata UI / infografica / concept frame] ## Limitazioni: [niente watermark / niente loghi / niente testo extra / preserva il volto / preserva il layout] # Input [Ci serve quando vogliamo unire delle immagini]
Nelle immagini il sotto punto delle limitazioni e il punto è dove molti prompt mediocri falliscono senza accorgersene. Se descrivi l’idea senza delimitazioni, il modello diventa creativo in direzioni che non vuoi.
Primo esempio

Ecco il prompt
# Contesto: Siamo in un sito archeologo romano, con colonne e capitelli, potrebbe essere il Pantheon a Roma. è pomeriggio e c'è una luce perfetta per le foto. # Istruzioni il soggetto è un uomo italiano di 40 anni, vestito casual in posa davanti al monumento. # Dettagli Sorriso naturale, pelle naturale per la sua età, maglietta rossa e jeans, indossa delle clark. Foto a immagine piena, dinamica. Le colonne sono bianche, pulite ma dimostrano i loro anni, c'è un buon bilanciamento dei colori, profondita di campo e luce naturale ## Dettaglio foto E' una foto per una rivista di viaggi, glamour in 16:9 ## Limitazioni Non mettere altre persone nello sfondo, no fare ritocchi pesanti, no scritte
Stesso prompt su Gemini & Midjourney
Non è corretto aspettarsi che Midjourney o Gemini creino qualcosa di corretto con un prompt pensato per ChatGPT, dato che lavorano con logiche diverse. Ma vi posto lo stesso i risultati, traete voi le conclusioni.



Gemini, Mj, Mj
Evitare l'AI Slop: Consigli Generali
Fatti visivi al posto di elogi vaghi
Evita: stunning, incredible, epic, masterpiece, gorgeous, insane detail. <- questi funzionicchiano su midjourney, non su GTP Images.
Preferisci: luce diurna coperta, cromato, golden hours, vernice scheggiata, kerning pulito, look da 50mm, luce rimbalzata morbida, tela leggermente usurata.
Gli stili devono avere riferimenti visivi
Parole come "minimalista brutalista editoriale luxury fotorealismo cinematic moderna premium" - sono utili per generare variabile inaspettate ma deboli se si vuole avere il controllo.
Meglio usare: Sfondo crema, font sans serif nero condensato e pesante, blocco tipografico asimmetrico, un solo oggetto hero, ampio spazio negativo, illuminazione da studio su piano.
Come regola generale Il linguaggio “di atmosfera” copre la precisione del risultato.
Sii chiaro nel dire esattamente cosa serve
Se servono delle colonne scrivi "colonne".
Se serve una carta d’imbarco leggibile, scrivi carta d’imbarco.
Se devi preservare un volto, scrivi preserva il volto.
Quando modifiche separa "change" da "mantieni"
Usa “modifica solo X” e “mantieni tutto il resto uguale”... io spesso mantengo il verbo "preserve" che mi sembra più preciso.
Ripeti sempre cosa va mantenuto per ridurre deviazioni.
Tratta il testo come tipografia
Metti il testo tra virgolette o in MAIUSCOLO.
Specifica font, dimensione, colore e posizione.
Se necessario, scrivi le parole lettera per lettera.
Non farti prendere la mano: una revisione per volta
Meglio modifiche piccole e iterative che una riscrittura totale.
"Rendi la luce più calda. Rimuovi la sedia a sinistra. Ripristina la texture originale del muro. Mantieni tutto il resto uguale." funziona meglio che:
"Rendilo più premium, più realistico, più stiloso, più cinematografico, più emozionale, più moderno, sistema il testo, cambia outfit, migliora lo sfondo, e mantieni tutto."
Modificare con GPT Image 2
Abbiamo visto come creare immagini, vediamo come modificarle.
La prima cosa che notiamo è che passiamo sopra all'immagine appare un bottone "edit" che, cliccato, ci permette di fare due cose:
- selezionare ed editare un'area
- cambiare l'aspect ratio (verticale, quadrato etc etc)
Selezionare un'area e modificarla
apprare un evidenziatore e si può modifcare una parte specifica della foto.
dato che "Quando sei a Roma, fai come i romani" (e perché sono sciocco) ho chiesto di mettere dei calzari alla foto precedentemente creata.

Ed ecco il risultato

Modificare via prompt
Possiamo anche modificare via prompt.
in questo caso basta scrivere cosa vogliamo. Nella mia foto ho fatto una richesta particolare, volevo rimuovere tutte le colonne, tranne quella dove era appoggiato il tizio.
se vogliamo essere sicuri che il prompt venga recepito al meglio, diciamo cosa si vuole cambiare, ma anche cosa preservare e i limiti.
# Cambia: Lo sfondo deve essere più simile a un luna park che a un colonnato # Preserve: persona, viso posa, vestiario, la colonna su cui è appoggiato, # Limitazioni: Non aggiungere persone

In questo caso possiamo notare che la persona è praticamente la stessa mentre invece il capitello è stato leggermente modificato.
Riproviamoci dando più enfasi a colonna ed angolo
# rimuovi rimuovi lo sfondo e mettici un luna park # Preserve the guy, la posa, i vestiti, la colonna su cui è appoggiato, angolo e dimennsioni # restrizioni No persone extra


Gemini Nano Banana (qui sotto) risponde meglio all'editing preservando le cose senza toccarle

Modalità 3: FU-SI-ON !
La terza Modalità è fondere immagini che abbiamo per avere un risultato nuovo.
Esempio 1
primo esperimento, giochiamo un po': prendo l'immagine del luna park, gli carico un'immagine di pantofole da orso e camicia con disegno arrogante. Il logo bianco su sfondo rosso lo userò in un altro prompt.



# Contesto la scena è quella di immagine uno nel luna park, col tizio appoggiato alla colonna # Instruction: Vesti la persona dalla immagine principale.png con la camicia dalla immagine: camicia.jpeg ai piedi mettigli le scarpe a forma di zampa (scarpe.jpg) # Dettagli Preserva posa, forma del corpo, viso, sfondo e luci da immagine principale.png ## Limiti No extra accessories. # Input Vedi allegati
Il risultato:

Esempio 2
Faccio qualcosa di più low key. Prendiamo la prima foto (il tizio con le clark) gli aggiungo la sua ragazza Asiatica con la borsetta e dico che deve mettere un logo sulla maglietta.
Le immagini che uso:



La ragazza Giapponese, il guappo italiano generate da me, la borsa trovata su internet
il prompt:
# Contesto la scena è quella di immagine principale.jpg, con tizio abbracciato alla sua ragazza di fianco a una colonna romana nel contesto di monumenti # Instruction: la persona dalla immagine principale.png ha una magglietta con questo logo: hurricane-polymar-logo-png, abbraccia la sua ragazza fidanzata.png # Dettagli Preserva posa, forma del corpo, viso, sfondo e luci da immagine principale.png la fidanzata ha la borsa di bag.webp il mood è chill e amorevole ## Limiti no extra people # Input Vedi allegati
I risultati
Il risultato mi sembra ottimo.
Il logo è stato inserito, il colore della maglietta mantenuto, la posa e tutto il resto pure. Pure le scarpe da vecchia sono in linea col vestiario e il mood.

E Gemini? - il logo sulla maglietta è un filo posticcio, i piedi della ragazza non si vedono, ma è un buon lavoro (anche in questo caso: è ingiusto pretendere buoni risultati su gemini utilizzando prompt di ChatGPT)

Campi di applicazioni
ti do qualche idea di applicazioni. Come noterai non tutti usano pari pari il framework che ti ho presentato sopra, semplicemente perchè non ce ne è bisogno... Anche capire quando usarlo e quando no fa parte del gioco.
Usa lo stile di..
Sempre i miei studenti sanno bene quanto è importante il tono di voce... E se facessimo lo stesso con le immagini? Piuttosto facile.
Primo prompt: Estrai lo stile
In questo caso si può fargli una domanda semplicissima:
Allega un'immagine (nel mio caso quella di copertina) e chiedo
puoi descrivermi l'immagine ?
La risposta di chatgpt è:
L’immagine è un ritratto minimalista in stile editoriale.
A destra c’è una giovane donna, probabilmente sui 20–30 anni, con capelli ricci e voluminosi di colore rosso. È seduta a terra a gambe incrociate, con una postura rilassata ma lo sguardo diretto e neutro verso la camera. Indossa una felpa oversize in tessuto morbido (tipo sherpa o pile) di colore grigio chiaro e pantaloni larghi marroni in velluto a coste. Ai piedi ha scarpe chiare, quasi invisibili nella composizione.
Sulle ginocchia tiene un laptop aperto, che introduce un contrasto interessante tra mood domestico e contesto digitale/lavorativo.
Lo sfondo è completamente pulito e uniforme, di un grigio molto chiaro. A sinistra c’è un grande cerchio pieno color marrone/terracotta, elemento grafico forte che bilancia la composizione e richiama il colore dei pantaloni.
La luce è morbida, diffusa, senza ombre dure. Il risultato è molto pulito, contemporaneo, quasi da lookbook o post Instagram studiato, con una palette cromatica coerente e calda.
Passo 2: replica lo stile
Chiedi a chatGPT di generare un'altra immagine. Nel mio caso voglio la ragazza con la stessa borsa della ragazza sopra.
Genera una foto di un ragazza in piedi con la borsetta che ti allego Uso lo stesso stile editoriale dell'immagine allegata (Guida a GPT Image2.png) L’immagine è un ritratto minimalista in stile editoriale. A destra c’è una giovane donna, probabilmente sui 20–30 anni, con capelli ricci e voluminosi di colore rosso. È in piedi con una postura rilassata ma lo neutro verso la sinistra. Indossa una felpa oversize in tessuto morbido (tipo sherpa o pile) di colore grigio chiaro e pantaloni larghi marroni in velluto a coste. non indossa scarpe, che introduce un contrasto interessante tra mood domestico e contesto digitale/lavorativo. Lo sfondo è completamente pulito e uniforme, di un grigio molto chiaro. A sinistra c’è un grande cerchio pieno color marrone/terracotta, elemento grafico forte che bilancia la composizione e richiama il colore dei pantaloni. La luce è morbida, diffusa, senza ombre dure. Il risultato è molto pulito, contemporaneo, quasi da lookbook o post Instagram studiato, con una palette cromatica coerente e calda. # in allegato: Guida a GPT Image2.png bag.webp
Risultato

direi esperimento superato!
Crea un cutout
Se vuoi usare l'immagine sopra nelle tue slide senza portarti dietro sfondo e tutto il resto?
Extract the lady from the input image. Output: transparent background, crisp silhouette, clean edges, no halos, no fringing. Preserve the pose, color, contrast, and print sharpness exactly. Optional: a very subtle realistic contact shadow only if it respects the alpha. Do not restyle the product. Do not change proportions.
Hai la foto di un prodotto e ti serve senza fronzoli?
# Istruzioni Estrai il prodotto dall'immagine di inpput # Dettagli sfondo trasparente, silhouette ben delineata, bordi precisi, senza sbavature o aloni, ## preserva la geometria della bottiglia, forma del tappo, colori dell'etichetta e del tappo. una leggera ombra soltanto se questa rispetta l'alpha. ## Constraints NO restyle prodotto NO cambio proporzioni # Input immagine in allegato


Non solo ha estratto il testo ma ha anche migliorato SENSIBILMENTE il testo.. in due alfabeti!
Genera lo stesso personaggio in pose diverse
Mettiamo insieme un po' di cose imparate
Passo uno: genera descrizione
Mi descrivi il personaggio principale di questa foto con dovizia di particolar?
Passo due:
Chiedi di rigenerare l'immagine partendo dal prompt (puoi ovviamente modificare le parti che credi
genera un'immagine di "copia incolla la descrizione" usando "brosetta" e "ciabatta"
Passo tre:
chiedi di generare lo stesso personaggio in tre pose diverse
genera lo stesso personaggio in 3 pose diverse, su sfondo bianco
oppure
Genera la stessa ragazza in 3 pose differenti, una mentre cammina, una mentre salta e l'altra mentre ammicca - sfondo bianco
I risultati?
Consistenza dei personaggi devastante.


Concludiamo
Di hype si può impazzire, gridare a gamechanger a OGNI rilascio non ha nessun effetto positivo per la nostra psiche o produttività. Possiamo però dire che ChatGPT si conferma essere un peso massimo.
Qui abbiamo parlato di generazione immagini, ma anche col Codice ha fatto bei passi avanti. Spero di annunciare tra poco da un Memory Updated dell'unificazione delle loro APP (compreso il browser che è stato già mezzo abbandonato).
Questa newsletter è stata più pratica del solito, ma il tema lo richiedeva. Torneremo a filosofeggiare dei massimi sistemi a breve!
Abrazo,
Manolo
Member discussion