15 apr 2023 5 min read stable diffusion

Stable Diffusion XL vs Midjourney 5

E' uscito oggi Stable Diffusion XL e promette grandi miglioramenti. Ecco i risultati dei miei test

E' uscito oggi Stable Diffusion XL e promette grandi miglioramenti. Ho fatto i primi test con dei prompt casuali (presi dal discord di Midjourney) e poi qualche altro con prompt miei.

Midjourney 5 sappiamo che ha migliorato tantissimo il problema delle mani e che in generale si è avvicinato alla qualità fotografica. Questo è un limite per chi nelle AI cercava la macchina sognate ma è di sicuro una soluzione commerciale saggia, che va in competizione diretta con i vari siti di immagini stock.

Stable Diffusion XL dice di risolvere il problema delle scritte e di tamponare quello delle mani.

Se vi piace questo articolo guardate i suggeriti:

Ho fatto alcuni test e questi sono i risultati.

Sabato 15.4.2023

Immagini generate con

Stable Diffusion XL https://clipdrop.co/stable-diffusion
Midjourney v5 https://discord.com/channels/662267976984297473/

Partiamo coi limiti del mio test. Utilizzo spesso Midjourney e praticamente mai Stable Diffusion quindi ho di sicuro dei bias nel giudizio.

Ho anche degli evidenti limiti nell'uso dei prompt di Stable Diffusion.

Tutte le immagini sono state compresse per evitare tempi di caricamenti lungherrimi.

Test 1: Logo

Partiamo con la generazione di un logo, per poter giocare sul campo di SDXL. prompt mediocre: Logo for a facebook page called ITALIAN MMA - flat, modern, minimal with italian flag colors

test creazione logo

in questo caso SDXL ha bocciato completamente il compito, dimenticandosi tanto la parola "Logo" quanto "italian flag colors". Il problema potrebbe essere che ho sbagliato a scrivere colors invece che colours, ma ho rifatto il test è fa ridere uguale.
Il logo di MJ è davvero brutto e nulla di originale, ma almeno segue le istruzioni: adesso se volessi sviluppare qualcosa è solo questione di prompting. Non mi piace che con la V5 lo sfondo è molto più frequentemente di color nero

Test 2 - Long Prompt

Prompt preso random dal discord di Mj e in quanto tale ha dei bias nel prompt.

E' molto lungo e probabilmente più adatto a mj 4: "Portrait of Ballerina Inside small Greenhouse, tutu, pointe shoes, young woman, farm greenhouse, sustainability, urban greenhouse, botanical building, matte Color pallet, modern architecture, Scandinavian, Scandinavian architecture, clean lines, Complimentary Palette, flowers, plants, urban jungle, farn, misty, mist in the air, wide angle, real estate photoshoting, photography, editorial photography, award winning photography, Wes Anderson style, leica m, voigtlander Nokton 35mm f1.4, vertical"

Vediamo però che in questo caso la composizione di entrambi è molto bella, e devo dire che SDXL la preferisco pure. Se però guardiamo l'immagine singola sono peggio che mediocri a livello di dettaglio.

Direi che al momento sono più o meno allo stadio di Midjourney 2-3 (agosto 2022)

Immagine singola del prompt sopra descritto della ballerina nella serra.

Test 3 - Logo vettoriale

Dopo che entrambi hanno fallito la prima prova sul logo voglio riprovarci con un prompt migliore chiedendo un logo vettoriale. uso il prompt: logo, white background, flat vector, smile retroconsole 16 bit.

Anche in questo caso vediamo come MJ vince a mani basse dal punto di vista del dettaglio, generando qualcosa di interessante. Anche SDXL ha qualcosa di utilizzabile e che richiama le retroconsole.

Nessuno dei due ha un white background, ma avendo fatto alcune variazioni ho visto che viene generato.

Test 4 - Tattoo

Proviamo con un prompt semplicissimo: samurai skull tattoo design black and grey -

I risulatati sono OK in entrambi i casi, ma sembra che SDXL dimentichi quasi completamente la parola "design" nel prompt generando dei veri tattuaggi e non dei design.

Come al solito è un problema di prompting

Test 5 - Sci-fi

Di solito sulla fantascienza MJ vince. E' molto probabile che gli sviluppatori siano amanti della sci-fi anni 60-70 e abbiano ben-nutrito il dataset. Con il prompt: the internal terrain of a huge, O'Neil style cylindrical, spaceship where towns, rivers and fields populate the inner space abbiamo dei risultati interessanti in entrambi i casi. diversi ma interessanti.

Test 6 - Mecha

I mecha sono uno dei miei grandi amori e sul mio canale Youtube trovate pure un video in cui spiego il prompting (sono uscite cose notevoli). In questo caso ho usato un prompt che mi proponeva SDXL per evitare di usare solo cose di MJ. Il prompt è un semplice: "Mecha fighting in space".

Per MJ ho usato l'estensione niji che è incredibile e infatti ha generato questa cosa qui:

Il confronto con i catorci di SDXL non è nemmeno proponibile.

Test 7: scritte

Ultimo test della giornata. Vediamo se SDXL ha davvero sistemato la faccenda delle scritte. il prompt è un altro semplicissimo: "a shop with a huge writing "BAKERY""

La composizione di SDXL mi piace molto, è sta cosa che le immagini di MJ 5 sono così scure che sembrano tutte prese dalla fiaba di Hansel e Gretel gli fa perdere molti punti. Nessuna delle immagini però è utilizzabile, poichè nessuna genera la scritta Bakery correttamente.

Conclusioni

Stable Diffusion XL è un grosso passa avanti, ma non è a livello di Midjourney 4, figuriamoci MJ 5 o Niji 5. Considerando che Mj ha già promesso una sesta release prima dell'estate e che SD sta accumulando grosse perdite credo che nella prima guerra di TTI abbiamo già un vincitore.

Se dovessi consigliare a qualcuno dove investire le energie direi quindi Midjourney: nel medio periodo è quello che genera immagini migliori, mantiene le promesse di sviluppo e sopratutto ha un modello di business che gli permetterà di sopravvivere. Certo ci sono le variabili delle cause e il grosso punto di domanda di come pagare le persone a cui ha preso i data set, ma questi sono problemi che purtroppo vedo passare in secondo piano.