10 min read

GPT Image 2, la guida con Framework & Esempi

La Guida Definitiva a GPT Image 2 è un nome pretenzioso, lo so. Ma quando si capisce come funziona il prompt engineering di ChatGPT tutto diventa più facile.
GPT Image 2, la guida con Framework & Esempi

Se un mesetto fa OpenAI sembrava aver perso i favori della "faccebuffe social", dopo il rilascio di ChatGPT 5.5 e GPT Image 2, le banderuole del web sembrano aver sentito il vento che tirava.

Anche se è ancora presto per creare "la Guida Definitiva a GPT Image 2", posso dire che sono discretamente fiducioso nel proporvi un qualcosa che funzionerà molto bene anche nel futuro.

Questo perchè il generatore di immagini di ChatGPT segue le regole di prompting della chat e quindi quando si ha un framework solido, tutto diventa molto facile.

I miei studenti vedranno, per l'ennesima volta, l'utilità del Framework CIDI, chi mi segue da poco potrebbe perdersi dei pezzi, scrivimi pure che ti rispondo.

Cosa Vedremo in questa guida:

Breve Recap

Non è questo il luogo per parlarvi di come fare prompt engineering, io per i prodotti OpenAi ho sposato la causa del CIDI. questo perchè semplice e molto versatile.

CIDI? chi è questa Cerneade?

Non mi prendo nemmeno la gloria per la creazione del framework (l ho imparato da Gialuca Mauro, di AI Academy). In brevissimo:

Contesto

Cosa succede, il tuo ruolo, le abilità

Istruzioni

Cosa ti aspetti di ottenere

Dettagli

Come ti aspetti che sia l'output

Input

qui si mettono i file di reference.

Grazie al CIDI si possono fare prompt estremamente semplici, quanto dei GPT personalizzati estremamente complessi... e come vedremo adesso anche delle immagini.

Le tre modalità: Creare, Modificare, Unire.

Con GPT image 2 si possono fare 3 cose essenzialmente:

  • Creare un'immagine,
  • modificare un'immagine pre-esistente,
  • unire delle immagini per crearne una nuova.

vediamo queste tre modalità

Creare con GPT Image 2

GPT Image 2 infatti premia la struttura. Usare un framework simile al CIDI, ci permette di avere risultati coerenti.

# Contesto della Scena:
[dove avviene, momento della giornata, sfondo, ambiente]

# Istruzioni sul soggetto:
[chi o cosa è il focus principale]

# Dettagli:
[materiali, abbigliamento, texture, illuminazione, angolo di ripresa, tipo di lente, composizione, mood]

## Use case:
[foto editoriale / mockup prodotto / poster / schermata UI / infografica / concept frame]

## Limitazioni:
[niente watermark / niente loghi / niente testo extra / preserva il volto / preserva il layout]

# Input
[Ci serve quando vogliamo unire delle immagini]

  

Nelle immagini il sotto punto delle limitazioni e il punto è dove molti prompt mediocri falliscono senza accorgersene. Se descrivi l’idea senza delimitazioni, il modello diventa creativo in direzioni che non vuoi.

Primo esempio

Ecco il prompt

# Contesto: 
Siamo in un sito archeologo romano, con colonne e capitelli, potrebbe essere il Pantheon a Roma. è pomeriggio e c'è una luce perfetta per le foto.

# Istruzioni
il soggetto è un uomo italiano di 40 anni, vestito casual in posa davanti al monumento.

# Dettagli
Sorriso naturale, pelle naturale per la sua età, maglietta rossa e jeans, indossa delle clark. Foto a immagine piena, dinamica. Le colonne sono bianche, pulite ma dimostrano i loro anni, c'è un buon bilanciamento dei colori, profondita di campo e luce naturale

## Dettaglio foto
E' una foto per una rivista di viaggi, glamour in 16:9

## Limitazioni
Non mettere altre persone nello sfondo, no fare ritocchi pesanti, no scritte

Stesso prompt su Gemini & Midjourney

Non è corretto aspettarsi che Midjourney o Gemini creino qualcosa di corretto con un prompt pensato per ChatGPT, dato che lavorano con logiche diverse. Ma vi posto lo stesso i risultati, traete voi le conclusioni.

Evitare l'AI Slop: Consigli Generali

Fatti visivi al posto di elogi vaghi

Evita: stunning, incredible, epic, masterpiece, gorgeous, insane detail. <- questi funzionicchiano su midjourney, non su GTP Images.

Preferisci: luce diurna coperta, cromato, golden hours, vernice scheggiata, kerning pulito, look da 50mm, luce rimbalzata morbida, tela leggermente usurata.

Gli stili devono avere riferimenti visivi

Parole come "minimalista brutalista editoriale luxury fotorealismo cinematic moderna premium" - sono utili per generare variabile inaspettate ma deboli se si vuole avere il controllo.

Meglio usare: Sfondo crema, font sans serif nero condensato e pesante, blocco tipografico asimmetrico, un solo oggetto hero, ampio spazio negativo, illuminazione da studio su piano.

Come regola generale Il linguaggio “di atmosfera” copre la precisione del risultato.

Sii chiaro nel dire esattamente cosa serve

Se servono delle colonne scrivi "colonne".
Se serve una carta d’imbarco leggibile, scrivi carta d’imbarco.
Se devi preservare un volto, scrivi preserva il volto.

Quando modifiche separa "change" da "mantieni"

Usa “modifica solo X” e “mantieni tutto il resto uguale”... io spesso mantengo il verbo "preserve" che mi sembra più preciso.

Ripeti sempre cosa va mantenuto per ridurre deviazioni.

Tratta il testo come tipografia

Metti il testo tra virgolette o in MAIUSCOLO.
Specifica font, dimensione, colore e posizione.
Se necessario, scrivi le parole lettera per lettera.

Non farti prendere la mano: una revisione per volta

Meglio modifiche piccole e iterative che una riscrittura totale.

"Rendi la luce più calda. Rimuovi la sedia a sinistra. Ripristina la texture originale del muro. Mantieni tutto il resto uguale." funziona meglio che:

"Rendilo più premium, più realistico, più stiloso, più cinematografico, più emozionale, più moderno, sistema il testo, cambia outfit, migliora lo sfondo, e mantieni tutto."

Modificare con GPT Image 2

Abbiamo visto come creare immagini, vediamo come modificarle.
La prima cosa che notiamo è che passiamo sopra all'immagine appare un bottone "edit" che, cliccato, ci permette di fare due cose:

  • selezionare ed editare un'area
  • cambiare l'aspect ratio (verticale, quadrato etc etc)

Selezionare un'area e modificarla

apprare un evidenziatore e si può modifcare una parte specifica della foto.

dato che "Quando sei a Roma, fai come i romani" (e perché sono sciocco) ho chiesto di mettere dei calzari alla foto precedentemente creata.

Ed ecco il risultato

Modificare via prompt

Possiamo anche modificare via prompt.

in questo caso basta scrivere cosa vogliamo. Nella mia foto ho fatto una richesta particolare, volevo rimuovere tutte le colonne, tranne quella dove era appoggiato il tizio.

se vogliamo essere sicuri che il prompt venga recepito al meglio, diciamo cosa si vuole cambiare, ma anche cosa preservare e i limiti.

# Cambia:
Lo sfondo deve essere più simile a un luna park che a un colonnato

# Preserve:
persona, viso posa, vestiario, la colonna su cui è appoggiato, 
  
# Limitazioni:
  Non aggiungere persone 

In questo caso possiamo notare che la persona è praticamente la stessa mentre invece il capitello è stato leggermente modificato.

Riproviamoci dando più enfasi a colonna ed angolo

 # rimuovi
rimuovi lo sfondo e mettici un luna park


# Preserve
the guy, la posa, i vestiti, la colonna su cui è appoggiato, angolo e dimennsioni


# restrizioni
No persone extra 

Gemini Nano Banana (qui sotto) risponde meglio all'editing preservando le cose senza toccarle

Modalità 3: FU-SI-ON !

La terza Modalità è fondere immagini che abbiamo per avere un risultato nuovo.

Esempio 1

primo esperimento, giochiamo un po': prendo l'immagine del luna park, gli carico un'immagine di pantofole da orso e camicia con disegno arrogante. Il logo bianco su sfondo rosso lo userò in un altro prompt.

# Contesto
la scena è quella di immagine uno nel luna park, col tizio appoggiato alla colonna

# Instruction:
Vesti la persona dalla immagine principale.png con la camicia dalla immagine: camicia.jpeg
ai piedi mettigli le scarpe a forma di zampa (scarpe.jpg)

# Dettagli
Preserva posa, forma del corpo, viso, sfondo e luci da immagine principale.png 

## Limiti
No extra accessories.


# Input

Vedi allegati

Il risultato:

Esempio 2

Faccio qualcosa di più low key. Prendiamo la prima foto (il tizio con le clark) gli aggiungo la sua ragazza Asiatica con la borsetta e dico che deve mettere un logo sulla maglietta.

Le immagini che uso:

il prompt:

# Contesto
la scena è quella di immagine principale.jpg, con tizio abbracciato alla sua ragazza di fianco a una colonna romana nel contesto di monumenti

# Instruction:
la persona dalla immagine principale.png  ha una magglietta con questo logo: hurricane-polymar-logo-png, abbraccia la sua ragazza  fidanzata.png

# Dettagli
Preserva posa, forma del corpo, viso, sfondo e luci da immagine principale.png 
la fidanzata ha la borsa di bag.webp
il mood è chill e amorevole

## Limiti
no extra people


# Input

Vedi allegati

I risultati

Il risultato mi sembra ottimo.
Il logo è stato inserito, il colore della maglietta mantenuto, la posa e tutto il resto pure. Pure le scarpe da vecchia sono in linea col vestiario e il mood.

GPT Image 2

E Gemini? - il logo sulla maglietta è un filo posticcio, i piedi della ragazza non si vedono, ma è un buon lavoro (anche in questo caso: è ingiusto pretendere buoni risultati su gemini utilizzando prompt di ChatGPT)

Campi di applicazioni

ti do qualche idea di applicazioni. Come noterai non tutti usano pari pari il framework che ti ho presentato sopra, semplicemente perchè non ce ne è bisogno... Anche capire quando usarlo e quando no fa parte del gioco.

Usa lo stile di..

Sempre i miei studenti sanno bene quanto è importante il tono di voce... E se facessimo lo stesso con le immagini? Piuttosto facile.

Primo prompt: Estrai lo stile

In questo caso si può fargli una domanda semplicissima:
Allega un'immagine (nel mio caso quella di copertina) e chiedo

puoi descrivermi l'immagine ?

La risposta di chatgpt è:

L’immagine è un ritratto minimalista in stile editoriale.

A destra c’è una giovane donna, probabilmente sui 20–30 anni, con capelli ricci e voluminosi di colore rosso. È seduta a terra a gambe incrociate, con una postura rilassata ma lo sguardo diretto e neutro verso la camera. Indossa una felpa oversize in tessuto morbido (tipo sherpa o pile) di colore grigio chiaro e pantaloni larghi marroni in velluto a coste. Ai piedi ha scarpe chiare, quasi invisibili nella composizione.

Sulle ginocchia tiene un laptop aperto, che introduce un contrasto interessante tra mood domestico e contesto digitale/lavorativo.

Lo sfondo è completamente pulito e uniforme, di un grigio molto chiaro. A sinistra c’è un grande cerchio pieno color marrone/terracotta, elemento grafico forte che bilancia la composizione e richiama il colore dei pantaloni.

La luce è morbida, diffusa, senza ombre dure. Il risultato è molto pulito, contemporaneo, quasi da lookbook o post Instagram studiato, con una palette cromatica coerente e calda.

Passo 2: replica lo stile

Chiedi a chatGPT di generare un'altra immagine. Nel mio caso voglio la ragazza con la stessa borsa della ragazza sopra.

Genera una foto di un ragazza in piedi con la borsetta che ti allego Uso lo stesso stile editoriale dell'immagine allegata (Guida a GPT Image2.png)

  L’immagine è un ritratto minimalista in stile editoriale. A destra c’è una giovane donna, probabilmente sui 20–30 anni, con capelli ricci e voluminosi di colore rosso. È in piedi con una postura rilassata ma lo neutro verso la sinistra. Indossa una felpa oversize in tessuto morbido (tipo sherpa o pile) di colore grigio chiaro e pantaloni larghi marroni in velluto a coste. non indossa scarpe, che introduce un contrasto interessante tra mood domestico e contesto digitale/lavorativo.
  
  Lo sfondo è completamente pulito e uniforme, di un grigio molto chiaro. A sinistra c’è un grande cerchio pieno color marrone/terracotta, elemento grafico forte che bilancia la composizione e richiama il colore dei pantaloni. La luce è morbida, diffusa, senza ombre dure. 
  
  Il risultato è molto pulito, contemporaneo, quasi da lookbook o post Instagram studiato, con una palette cromatica coerente e calda. 
  
  # in allegato: Guida a GPT Image2.png bag.webp

Risultato

direi esperimento superato!

Crea un cutout

Se vuoi usare l'immagine sopra nelle tue slide senza portarti dietro sfondo e tutto il resto?

Extract the lady from the input image.
Output: transparent background, crisp silhouette, clean edges, no halos, no fringing.
Preserve the pose,  color, contrast, and print sharpness exactly.
Optional: a very subtle realistic contact shadow only if it respects the alpha.
Do not restyle the product.
Do not change proportions.

Hai la foto di un prodotto e ti serve senza fronzoli?

# Istruzioni
Estrai il prodotto dall'immagine di inpput

# Dettagli
sfondo trasparente, silhouette ben delineata, bordi precisi, senza sbavature o aloni,
## preserva
la geometria della bottiglia, forma del tappo, colori dell'etichetta e del tappo.
una leggera ombra soltanto se questa rispetta l'alpha.

## Constraints
NO restyle prodotto
NO cambio proporzioni

# Input
immagine in allegato

Genera lo stesso personaggio in pose diverse

Mettiamo insieme un po' di cose imparate

Passo uno: genera descrizione

Mi descrivi il personaggio principale di questa foto con dovizia di particolar?

Passo due:

Chiedi di rigenerare l'immagine partendo dal prompt (puoi ovviamente modificare le parti che credi

genera un'immagine di "copia incolla la descrizione" usando "brosetta" e "ciabatta"

Passo tre:

chiedi di generare lo stesso personaggio in tre pose diverse

 genera lo stesso personaggio in 3 pose diverse, su sfondo bianco

oppure

Genera la stessa ragazza in 3 pose differenti, una mentre cammina, una mentre salta e l'altra mentre ammicca -  sfondo bianco

I risultati?

Consistenza dei personaggi devastante.

Concludiamo

Di hype si può impazzire, gridare a gamechanger a OGNI rilascio non ha nessun effetto positivo per la nostra psiche o produttività. Possiamo però dire che ChatGPT si conferma essere un peso massimo.

Qui abbiamo parlato di generazione immagini, ma anche col Codice ha fatto bei passi avanti. Spero di annunciare tra poco da un Memory Updated dell'unificazione delle loro APP (compreso il browser che è stato già mezzo abbandonato).

Questa newsletter è stata più pratica del solito, ma il tema lo richiedeva. Torneremo a filosofeggiare dei massimi sistemi a breve!

Abrazo,

Manolo

Mastodon