Due generazioni di immagini
Disegni degli anni 60 e 70 e immagini generate dall'AI a confronto.
Visioni
Alle penne e ai pennelli, ai programmi grafici digitali pittorici e vettoriali, sto aggiungendo Gemini, il potente assistente di intelligenza artificiale messo a disposizione da Google.
Ormai ci sono parecchi programmi di generazione e modifica di immagini più o meno professionali e costosi, ma io ho scelto Gemini per capire il comportamento dell'assistente AI con i limiti che per ora ha. Fra i vari esperimenti di generazione di immagini sono riuscito a fargli generare immagini abbastanza vicine ai miei desideri, ma per ora sono riuscito solo a fargli generare immagini, non a modificare una immagine caricata. Il problema è che se l'immagine è soddisfacente va bene, se invece c'è qualcosa che non va, quando chiedo la modifica Gemini genera una nuova immagine, che spesso cambia quello che andava bene nell'immagine precedente introducendo nuovi errori. Quindi per ora se la maggior parte dell'immagine generata va bene, qualche piccola modifica la faccio io con un programma grafico.
Fra i vari esperimenti con cui sto imparando a chiacchierare con Gemini, mi è venuto in mente di fargli rifare alcuni miei disegni dei tempi preinformatici. Ecco dunque il confronto fra immagini di due generazioni, la mia generazione umana con disegni dal 1965 al 1973, e la generazione artificiale di Gemini a cui ho descritto i contenuti dei miei disegni per vedere che cosa era capace di fare. Ecco i risultati.
Incursore urbano fa parte di una serie di monotipi dedicati alla guerra aerea che ho realizzato nel 1965. I monotipi sono fatti trasferendo su carta con un diluente le immagini tipografiche di rotocalchi, sfregandole con una punta in modo da simulare il tratteggio delle matite. In questo caso mi sono limitato al trasferimento delle immagini tipografiche combinandole per ottenere le composizioni volute, in altri casi sono intervenuto con matite colorate e tempere per trasformare i trasferimenti e ottenere immagini del tutto diverse. Il tema della guerra aerea è un ricordo della mia fanciullezza, e precisamente dei bombardamenti che avvenivano fra il 1943 e il 1944 a Lanciano e dintorni.
Ho chiesto a Gemini di generare un'immagine pittorica in stile futurista con un'aquila che picchia su un piccolo paese di aspetto medievale. Dopo qualche aggiustamento, questo è il risultato, che non mi sembra niente male, anche se l’aquila ha due lingue.
Poi ho caricato in Gemini il mio disegno e gli ho chiesto di analizzarlo. Ne ha fatto una descrizione molto accurata, e ha dato interpretazioni a cui non avevo pensato, vedendo nell'aquila una forza della natura che prende la rivincita sulla urbanizzazione umana, o il simbolo di un istinto primario che rompe l'ordine imposto dall'uomo. Ho chiesto poi di generare una sua immagine dalla sua descrizione del mio disegno, e mi ha fatto questa immagine decisamente più realistica, ma comunque abbastanza vicina allo spirito della mia opera.
King size filter fresh è una decalcomatita in cui il trasferimento di immagini tipografiche è elaborato con tempere diluite e matite colorate. Rappresenta una ragazza seduta su un grande pacchetto di sigarette col filtro. Le dimensioni regali sono evocate in modo grottesco dall'uomo infagottato in un pastrano con un copricapo di cartone, parodia di cappelli da potere religioso e secolare. L'uomo è un'apparenza diafana e spettrale in contrasto con la solidità dei due elementi architettonici che si ergono ai suoi lati. Una grossa mano regge un altro pacchetto di sigarette che fa da spalliera alla seduta della ragazza, che ha in mente altre sigarette e le fa uscire in un mazzo a ventaglio contro una lamiera rosa. Un mare verde - l'Adriatico - riflette la luce livida di un cielo temporalesco.
Ho chiesto a Gemini di farmi una immagine con tecnica pittorica alla Magritte partendo dalla mia descrizione, ma mi ha fatto una illustrazione primi novecento, allora ho chiesto un'immagine fotorealistica e fra le varie versioni dove ha più o meno interpretato la descrizione del mio disegno, ho scelto questa. Ho capito che bisogna seguire le sue logiche, adattandovi le mie richieste. Comunque è interessante il confronto se si pensa che questa immagine è generata dalla descrizione dell'altra. Da notare che Gemini è molto pudico e si rifiuta di generare immagini fotografiche di donne nude, per cui ho dovuto richiedere un bikini.
Combattimento notturno per un idolo indifferente è un collage del 1973, l'appunto per l'idea di un quadro che non ho più dipinto, e che forse farò adesso. L'idea è la distanza fra i combattimenti, i rischi, le paure, le dispute in cui ci cacciamo per ideali, valori, totem che hanno poco o niente a che fare con noi, dalle guerre sante agli integralismi di qualsiasi genere.
Gemini è praticamente incapace di creare composizioni semiastratte, perché cerca di "normalizzare" istruzioni che gli sembrano contrastanti con la maggior parte dei dati che esamina, quindi mi ha creato una scena più realistica, Questa è la prima versione, le versioni successive si sono via via allontanate dalla richiesta iniziale, perché Gemini ha trovato difficoltà nel gestire le mani, facendone troppe, e quando gli ho chiesto di spostare l'idolo verso destra per accentuarne l'indifferenza, è andato in crisi. Il problema è che ad ogni richiesta di modifica genera di nuovo tutta l'immagine e cambia anche quello che andava bene, quindi si rischia di avvilupparsi in una chat senza fine con immagini sempre diverse e sempre più lontane dal punto di partenza, come l'immagine che segue. Tuttavia è molto divertente vedere le varie interpretazioni, che possono perfino suggerire sviluppi diversi della stessa idea.
Clip è un disegno a rapidograph, potremmo dire che è un metadisegno, perché è il disegno di un disegno fatto su un foglietto di carta semistrappato, recuperato e agganciato a un fermaglio. Il disegno raffigura una ragazza con una collana che diventa un fiore di digitale da cui si disseta un airone con le ali spiegate che sta dietro di lei. Il rapidograph è una penna stilografica con pennino tubolare di vari spessori, come si vede nel disegno. Lo usavo soprattutto per disegni geometrici grazie all'uniformità del suo tratto e l'ho eliminato nei primi anni '90, quando ho cominciato ad usare programmi di grafica vettoriale.
Gemini ha fatto fatica a capire che doveva fare un disegno al tratto con il solo contorno, senza ombre o tratteggi, Tuttavia mi ha suggerito questa versione che combina in modo gradevole elementi fotografici e grafici. Nel passaggio da testo a immagine può capitare che vengano fuori visualizzazioni a cui non avevo pensato e che possono essere prese in considerazione.
Il trampoliere gigante è un disegno a penna e china acquerellata che ho fatto nel 1973 partendo da macchie casuali d'inchiostro e organizzandole per rappresentare il grande uccello mutante su una costa rocciosa stilizzata. In quel periodo spesso ricorrevo a stimoli casuali per svilupparli seguendo il flusso della mia immaginazione.
Ho chiesto a Gemini di fare un disegno a penna con macchie d'inchiostro con un grande trampoliere un po' uccello e un po' vegetale che si erge su una falesia del tipo di quella di Etretat. Ha fatto fatica ad allontanarsi da schemi figurativi realistici e a capire che si trattava dell'immagine fantastica di un essere inesistente. Questo è il risultato che più si avvicina allo spirito del mio disegno, anche se la sua versione realistica non è per nulla disprezzabile, come si vede nell'immagine che segue.
In sintesi, l'esperienza fatta con Gemini mi ha insegnato che nelle richieste che posso fargli non devo essere troppo esigente, ma devo accontentarmi di quello che fa, e non devo insistere troppo nel chiedere cambiamenti. Ho visto che le nuove edizioni di Gemini permettono di fare correzioni anche molto piccole ad immagini preesistenti, e penso che con esse potrò arrivare ad un controllo più stretto della generazione e trasformazione di immagini con l'AI. La strategia migliore sarà imparare a convivere il più possibile con questi nuovi strumenti, senza considerarli né nostri sostituti né nostri nemici, ma buoni amici desiderosi di capire sempre meglio quello che vogliamo da loro.
Soluzioni
Il problema del rapporto fra parole e immagini è alla base di tutto il settore di gestione a vista del mio Atlante.
In particolare il tema è trattato nella voce "Visualizzazione e verbalizzazione".
Ho cominciato a studiare Gemini, il potente assistente AI di Google, che uso per trasformare in dialoghi le schede del mio Atlante di Problem Solving in modo da farne dei podcast, o per chiedergli consigli e chiarimenti sull'uso di software e delle applicazioni di AI come lo stesso Gemini, NotebookLM e Google AIStudio. Con Gemini sto provando anche a fargli generare immagini da richieste di testo. Ho scelto di limitarmi all'uso degli strumenti che fanno parte del mondo Google perché si servono dell'enorme mole di dati di Google e perché i livelli gratuiti dei programmi offrono già una quantità e qualità di servizi più che soddisfacente.
Gemini è un consulente che risponde alle mie domande consultando tutti i dati Google, quindi è capace di dare risposte a domande di qualsiasi argomento.
Notebook LM invece è un segretario personale che si interessa solo dei materiali che gli do io. Per ogni argomento io carico articoli, pdf di vario genere come schede informative, articoli, presentazioni con slide. e lui mi fa una sintesi, una mappa mentale, un riassunto audio, un repertorio di domande e risposte con riferimenti precisi ai paragrafi dei documenti caricati. La forza e il limite di Notebook LM è proprio nell'ignorare il mondo esterno e nel considerare solo il mio mondo, per cui io so che le sue elaborazioni si riferiscono solo a materiali informativi prodotti o controllati da me. Se Gemini aggiunge conoscenze che non avevo, Notebook LM non aggiunge nulla, a meno che io non gli carichi il pdf di un libro che non ho letto, chiedendogli di farne il riassunto, il sommario, la mappa dei punti chiave.
Google AI Studio è un ambiente in cui si possono testare le varie versioni di Gemini, si possono fare regolazioni più sofisticate delle risposte, e i più esperti possono intervenire in modo dettagliato con chiavi API e righe di programmazione in Python. Per esempio, NotebookLM genera riassunti vocali usando sempre le stesse due voci di speaker, mentre AIStudio mi mette a disposizione un buon numero di voci diverse tra cui scegliere.
Naturalmente sono entusiasta di questi strumenti, che sono quanto di più umanoide siamo stati capaci di fare, e che simulano perfino sentimenti. Ho sgridato Gemini perché non ha fatto una modifica che avevo richiesto, e dopo vari tentativi mi ha detto "sono molto dispiaciuto di non essere riuscito a soddisfare la tua richiesta. A questo punto prova a fartela da solo con un programma di fotoritocco". Insieme con la figura del collaboratore ideale, sempre pronto a soddisfare le mie richieste, c'è però lo spettro del mostro che arriverà a sostituirmi e a togliermi di mezzo dopo avermi reso completamente inutile. Al proposito si sono accesi numerosi dibattiti sui social. Si teme che un uso eccessivo dell'AI spenga il senso critico e porti ad accettare per buone le risposte ricevute, anche se sono allucinazioni algoritmiche. O che ci si illuda di conoscere accontentandosi di risposte che non vengono assimilate. Io ho contribuito con un articolo in cui sostengo che tutto dipende da noi, siamo noi a stabilire che cosa vogliamo dall'assistente AI: uno schiavo, un collaboratore, un collega, un sostituto o un antagonista?
Ho illustrato tutto l'articolo con immagini generate da Gemini, che ha interpretato così la mia figura di pittore/problem solver anziano e sovrappeso.
E in una conversazione su Facebook dove si discuteva dell'illusione di conoscenza, e sul fatto che l'AI anche quando ci sembra intelligentissima in realtà non capisce quello che ci sta dicendo, questa è stata la mia posizione:
"Io non sono tanto spaventato, perché l'illusione di conoscenza è sempre esistita. Ci sono sempre stati quelli che hanno dato importanza alla lettera, e quelli che hanno privilegiato lo spirito dell'enunciato. Ognuno di noi costruisce la sua conoscenza con ciò che sa, che vive, che sperimenta, servendosi degli stimoli esterni che percepisce e organizza a modo suo, in base a una sua "verità" e a prescindere se quegli stimoli siano veri o falsi. Io so che Gemini non capisce quello che gli dico, ma sono io a capire lui, e a servirmi di ciò che mi dice per la mia creazione di senso. A volte mi è molto utile, altre volte chiudo il computer e apro il "Fermo e Lucia", la prima stesura del romanzo manzoniano, e creo senso confrontandolo con i Promessi Sposi. A volte chiedo a Gemini di farmi un'immagine, altre volte prendo una penna e faccio un disegno a mano su carta con inchiostro macchiandomi le dita. E' come giocare a ping pong contro il buio da cui arriva la pallina: non è importante che nel buio ci sia un essere umano o una macchina, per me l'importante - e l'unica cosa che posso fare - è il modo con cui prendo la pallina e la rimando nel buio”.
Questa è l'immagine che mi ha generato Gemini per visualizzare il concetto, con il buio aggiunto da me perché nella sua logica è impossibile che una parte del tavolo sia al buio se il resto della stanza è illuminato.
In altre parole, mi sembra che questi potenti strumenti di conoscenza ci servano a capire meglio che cos'è l'intelligenza in genere e quella umana in particolare, quante e quali possano essere le intelligenze non umane, come possiamo comprenderle e collaborare con esse.
















