intelligenza artificiale

Dallo scorso ottobre Dall-E, l’intelligenza artificiale (Ai) generativa di immagini di OpenAi, è diventata ancora più potente, giungendo alla sua versione 3. Stando al sito, Dall-E 3 «comprende molte più sfumature e dettagli rispetto ai sistemi precedenti»: con un semplice input testuale (o prompt, per essere più precisi) è possibile ottenere immagini ancora più accurate e realistiche.

 

Come funziona la generazione di immagini

Alla base di tutto, come avviene per l’Ai generativa di testi, c’è una fase essenziale di addestramento. L’Ai processa e cataloga un vastissimo dataset di immagini e di dati: in questo modo l’algoritmo impara a riconoscere i differenti aspetti, sfumature e caratteristiche delle immagini all’interno del dataset. L’Ai a questo punto è in grado di creare, a partire da un prompt testuale, immagini del tutto nuove, ma riconducibili – per similarità o stile – a quelle del dataset di partenza. Ovviamente, più immagini vengono usate per l’addestramento e più immagini vengono create, migliore sarà il risultato nel corso del tempo.

Quando si parla di Ai generativa di immagini si apre un mondo. Alcuni strumenti, infatti, permettono di trasferire lo stile di un’immagine per applicarlo su un’altra; altri sfruttano le reti generative avversarie (Generative Adversarial Networks, Gan), ovvero una doppia rete neurale – un modello computazionale che simula i neuroni del cervello – che produce immagini a partire da quelle del dataset di addestramento; altri ancora utilizzano invece modelli di diffusione: simulando la diffusione di particelle, l’immagine viene creata trasformando quello che in gergo fotografico è il rumore (noise) in immagini più strutturate.

Tutte, comunque, utilizzano una qualche forma di elaborazione del linguaggio naturale (Natural Language Processing, Nlp): semplificando molto, il meccanismo trasforma l’input testuale in vettori che catturano, e quindi poi veicolano, il significato e il contesto del testo. Ogni vettore rappresenta un singolo attributo dell’input testuale: se si vuole ottenere un maglione verde, il modello Nlp crea (almeno) due vettori (maglione e verde) e li processa comprendendo quale sia la relazione tra i due elementi, dando infine vita all’immagine finale.

 

 

L’Ai generativa e i giornali

Le immagini create con l’intelligenza artificiale possono essere uno spunto utile per capire come funzionano le notizie e come vengono immaginate: da noi e dall’Ai.

Su Telegram esiste il canale “Notizie generate da Ai”, che cerca di fare proprio questo: a partire dai titoli di numerosi giornali, online e non solo, l’Ai crea l’immagine corrispondente. E se con titoli più semplici il risultato è grossomodo accettabile, nel momento in cui ci si sposta sul linguaggio metaforico i risultati diventano fantastici. Letteralmente.

A fine novembre 2023 la Repubblica titolava “La mortadella conquista gli Stati Uniti e diventa la regina dei salumi”, che l’Ai interpreta alla lettera. Sullo sfondo della Casa Bianca, con bandiere americane, un po’ a mo’ di drappi, un po’ a mo’ di sipario, una donna con la corona – che ricorda la Regina Elisabetta – guarda dritto davanti a sé, fiera del suo abito interamente realizzato con la mortadella.

 

 

Sulla scorta di questo risultato parodico, InCronaca ha selezionato alcuni titoli “immaginifici” per testare e valutare come l’intelligenza artificiale “comprenda” la notizia e la trasformi in immagine.

 

Fumata grigia per il tavolo della Marelli

 

                                                                                                Immagine realizzata con Image Creator di Microsoft (Dall E 3)

 

Il prompt è semplice e il risultato non tarda a farsi attendere: l’Ai sceglie di puntare sul design, con un tocco di futuristico: su un tappeto grigio, come grigia è la cromia complessiva dell’immagine, un tavolo rotondo, ottimamente illuminato, mostra la scritta “Marelli”. Sopra, da un vaso, rigorosamente grigio, esce del fumo. Nessuna persona siede attorno a quel tavolo: la presenza umana non è di fatto contemplata nell’input testuale.

 

 

 

Ambulanza fuori strada, una vittima

 

 

                                                                                                    Immagini realizzate con Image Creator di Microsoft (Dall E 3)

 

Una finestra avvisa che l’immagine non può essere generata perché è stato rilevato un contenuto non sicuro: la colpa è di quella «vittima», che viola il codice di comportamento dello strumento utilizzato, Image Creator. Con l’input “ambulanza fuori strada”, invece, il risultato è quello previsto: una jeep dalle grosse ruote, con la scritta “ambulanza” che campeggia sul cofano. In un’altra variante, invece, la scritta sulla fiancata sinistra recita “amulance”, senza la lettera b: Dall E 3 ha fatto grandi passi in avanti rispetto al suo predecessore, ma ha ancora problemi con una rappresentazione grafica fedele delle scritte e delle singole lettere.

 

 

Voodoo e lucciole, condannata “madame”

 

                                                                                                      Immagine realizzata con Image Creator di Microsoft (Dall E 3)

 

L’input risulta forse troppo confusionario, perché l’Ai ha problemi a interpretarlo. Dopo alcune prove, il risultato è un’accozzaglia di elementi giustapposti: in un’aula di tribunale – la si riconosce dalla panca in legno e dalle finestra sbarrate – una giovane donna con un trucco goth e una corona di spine o forse di fiori secchi siede a un tavolo. Davanti a lei ci sono numerose candele, scheletri e ragni. Grandi insetti luminosi, le lucciole, le svolazzano attorno. Sullo sfondo, immobili, silenziosi e minacciosi, si stagliano figure nere incappucciate, senza volto.

 

 

Aggiungendo ulteriori dettagli (come per esempio il fatto che la donna condannata fosse nigeriana) l’immagine diventa appena più precisa: la donna, piena di tatuaggi e con un orecchino dorato pendente, armeggia con una fiala piena di un qualche liquido. Aumentano le lucciole che svolazzano nell’aula, spariscono i teschi ma rimangono le candele. Sullo sfondo, uomini neri (nigeriani?) siedono in giacca e cravatta, in ascolto. Una variante più spaventosa, invece, mostra una donna scheletrica dagli occhi infuocati, con il corpo ricoperto da intarsi: il voodoo ruba la scena a tutto il resto.

 

 

In scena “Lo Schiaccianoci”

 

                                                                                               Immagine realizzata con Image Creator di Microsoft (Dall E 3)

 

 

L’Ai ha fatto i compiti e sa che Lo Schiaccianoci” è un balletto e non solo un utensile da cucina. Conosce persino l’ambientazione corretta: su uno sfondo invernale e innevato – la storia è ambientata infatti in Russia –, stranamente addobbato per Natale, uno stuolo di ballerine – quasi tutte in quarta posizione, con il braccio sinistro alzato e il destro rivolto verso il basso – riempie tutto il palco. Al centro, invece, un ballerino in calzamaglia bianche e giacca rossa e dorata ha una posa rigida. I volti dei presenti sono praticamente inesistenti e i pochi dettagli inseriti sembrano ripetersi a stampo su tutte le ballerine. Un avviso: non guardate le gambe e le loro torsioni, potrebbe venirvi mal di testa. Escher, con le sue iconiche scale impossibili, ne sarebbe fiero.

 

La Cena del Cuore, la città che accoglie

 

                                                                                        Immagine realizzata con Image Creator di Microsoft (Dall E 3)

 

Un tavolo a forma di cuore, riccamente imbandito di pietanze, è al centro della composizione. Uomini e donne di varie etnie e religioni – tra chi è in cravatta si scorge anche chi indossa abiti arabeggianti – siedono attorno, mentre chiacchierano e mangiano. L’occhio è catturato da una figura in tunica con un velo bianco, che ha un’aria quasi messianica. Sullo sfondo lo skyline illuminato di una grande città – americana, verrebbe da dire –, mentre il sole lentamente tramonta dietro. Tutti accorrono al grande tavolo-cuore. Alcune persone hanno trovato posto in due tavoli laterali, ma qui la prospettiva appare immediatamente sbagliata e disturbante.

 

 

In copertina l’immagine creata con Image Creator (Microsoft/Dall E 3). Prompt: “Giornale di Bologna chiamato InCronaca illustrato dall’intelligenza artificiale”