Il caso Grok, ChatGPT Health: perché l’AI generativa ci costringe a ripensare autenticità, responsabilità e fiducia #35

👉 Ascolta su Spotify
👉 Guarda su YouTube
👉 Segui su LinkedIn

[00:00] Introduction and Context of the Controversy

Stefano Maestri

Ciao a tutti, tutte e bentornati, bentornate. Paolo non saluta perché è maleducato.

Alessio Soldano

Ciao!

Paolo Antinori

Ciao!

Stefano Maestri

Ma c’è anche Paolo, se non state guardando il video sappiate che c’è anche Paolo. Bene, da dove possiamo partire? Ovviamente dobbiamo partire dalla polemica della settimana, partiamo dalla polemica della settimana. Allora avete visto che probabilmente un po’ tutti nel feed hanno visto che c’è stata questa polemica delle star di Hollywood contro Grok, l’intelligenza artificiale di Twitter ex Elon Musk, perché il feed delle immagini di Grok — perché Grok ha un’area che si chiama appunto media se ricordo bene — è stato invaso da star americane in bikini, che non erano in bikini. Perché Grok permetteva di spogliare, tra virgolette — in realtà non è vero, spogliare è eccessivo, ma nella cultura americana già il bikini è spogliare — di mettere in bikini chiunque a partire da un’immagine vestita e in maniera assolutamente credibile, quindi di fatto generando dei deep fake, se vogliamo dirlo così. E qui c’è stata grandissima polemica, levata di scudi. L’Europa sta già legiferando probabilmente su questa cosa. Ci sono paesi, comunque l’Indonesia ho letto, che ha bloccato l’utilizzo di Grok per questa cosa. Immagino per cultura invece religiosa più stringente. Adesso ragionandoci, però, l’Indonesia credo che sia un paese musulmano.

Alessio Soldano

Assolutamente sì.

Stefano Maestri

Cioè dove però è abbastanza evoluto, è abbastanza aperto comunque per avere accesso a Twitter e altre cose di questo genere. Però se prendi una donna di cultura musulmana che è coperta per motivi religiosi e la mette in bikini, cioè ci sta che loro si siano più irrigiditi di altri secondo me. Detto questo, la reazione di Elon è stata quella che a me ha fatto più ridere di tutti, perché su questa cosa lui ha detto: “Va bene avete ragione”, però non ha messo la parola scusa che non c’è nel suo vocabolario credo, ha detto: “Va bene avete ragione, allora lo possono fare soltanto gli utenti paganti”. Non ha detto “Non lo fate”. Stupendo.

[02:27] Deepfake Technology and Cultural Reactions

Alessio Soldano

Grandiosa. Esatto.

Paolo Antinori

Chiaramente, chiaramente mi sembra la sua reazione. Io invece volevo commentarvi che è un peccato che tutto questo rumore sia avvenuto su Grok, a parte per consentire a Elon di fare questa uscita. Perché se fosse avvenuto su Google e la gente avesse usato Nano Banana per fare questo mestiere, c’era anche il nome per questa pratica: si sarebbe potuta chiamare Buccia di Banana e sarebbe stato perfetto secondo me. Proprio il nome geniale che neanche i CVI più avanzati potevano permettersi, quindi è un’occasione sprecata secondo me.

Alessio Soldano

Beh, ma in realtà credo che sia semplicemente perché c’è l’integrazione tra Grok ed X e quindi era facile poi diffondere tutte le immagini. Perché probabilmente la gente comunque come lo fa con Grok lo fa anche con Nano Banana e fine.

Paolo Antinori

Ad ogni modo il mio feed di Facebook di alcune mie compagne delle superiori è pieno di loro foto in costume che nessuno gli ha chiesto, quindi non sono sicurissimo che sia un reale problema. Cioè non capisco perché è un problema, però boh non lo so insomma.

Alessio Soldano

Dice, non sono neanche generate quelle AI.

Paolo Antinori

Ecco, boh, è la mia posizione.

Stefano Maestri

No, anche la mia è su questo. Però apre una discussione sui Deep Fake. Ma più che sui Deep Fake ci riflettevo ieri sera, preparando un attimo la puntata. Pensiamo a Gemini. Gemini mette il watermark più o meno complicato per far vedere che l’immagine è generata e tutto quanto. In realtà forse almeno sulle immagini personali stiamo ragionando al contrario, perché la facilità che si ha di generazione immagini anche con modelli in locale di cui fai fine tuning, di cui fai LoRA eccetera eccetera, e puoi togliere tutte queste cose qui. Forse stiamo ragionando al contrario, forse dovremmo — almeno chi ha un’immagine pubblica, non noi tre, anche se siamo su YouTube, ma magari una Liv Tyler della situazione — dovrebbe fare il contrario, cioè è autentico solo quello che firmo io in maniera univoca digitale sull’immagine. I modi per farlo scomodano immediatamente la blockchain nel mio pensiero. Se pensate agli NFT — adesso divaghiamo un secondo — gli NFT, non-fungible token, dei token che si mettono su una blockchain che sono unici, erano nati per il collezionismo, l’equivalente delle figurine, ma questa cosa qua potrebbe essere usata per le fotografie. Poi indubbiamente il problema rimane, il problema è complesso perché allora la foto del paparazzo che Liv Tyler non firma è generata o è reale? Si apre tutta un’altra discussione ma quantomeno le foto che io voglio che siano certificate che sono io forse bisognerebbe ragionare al contrario: non un watermark per dire cosa è generato ma watermark, o meglio ancora, firma digitale per dire che cos’è autentico. Sbaglio?

Alessio Soldano

È complesso comunque.

Paolo Antinori

No è interessante, appunto non so se… cioè o meglio, è così importante sulle foto o no? Posso capire sui documenti: io ho firmato di avere comprato la casa, ho firmato digitalmente il mio documento, è inattaccabile. Che la foto della mia comunione sia firmata da me… sti cazzi!

Stefano Maestri

No, la tua no, ma chi lavora con la propria immagine però sì. Liv Tyler della situazione, piuttosto che, che ne so, la starlette italiana. Chi lavora con la propria immagine forse boh, non lo so, è un mondo che conosco poco.

Alessio Soldano

Sì, ma anche in generale, anche un qualunque personaggio YouTube con tanto seguito eccetera nel momento in cui esce qualcosa di verosimile che però magari non ha davvero detto lui, può essere che ti rovini la reputazione eccetera.

Paolo Antinori

Oggi io dico scusate stavo pensando a chi spara un sacco di cazzate davanti a un microfono in un edificio istituzionale di qua e di là che tanto dice: “No non è vero l’ho detto”, quindi non lo so lascio un po’ il tempo che trova. No invece volevo…

Stefano Maestri

No, certo. No, no, beh, infatti il problema è complicato poi da capire cosa voglio che sia autenticato, che cosa no, eccetera. Però boh.

Paolo Antinori

Volevo aggiungere però una cosa in questa direzione: un titolo di una news che ho letto ma non ho realmente approfondito era un commento dell’attore Matthew McConaughey che diceva che era infastidito anche lui da questa cosa. Non so se lui lo conoscete ma in realtà la persona è più intelligente e più profonda di quanto non diresti guardandolo velocemente. Ascoltando le sue interviste sono rimasto stupito e lui, siccome gli dava fastidio e voleva fare qualcosa di attivo, ha deciso di inseguire una specie di loop legale americano in cui registrava se stesso come un marchio registrato. Essendo lui un marchio registrato, questo attivava tutta un’altra serie di nuove leggi per cui se qualcuno usava la sua immagine violava la legge direttamente. Non so se è la fine di tutta questa storia, ma qualcuno ci sta provando.

Alessio Soldano

Sì. Secondo me no, ho letto e ho visto anche del materiale a riguardo io. Il problema è che ti vai a impelagare in tutta una serie di differenze tra immagini e video, insomma materiale visivo generato piuttosto che editato con tutti i vari strumenti Photoshop, tutto quello che puoi pensare per l’editing. E a quel punto lì, dov’è la soglia di separazione? Fino a che punto è lecito e dopo è una rivisitazione o qualcosa di sufficientemente distante dal materiale originario? Se poi consideri che tutto questo è lento perché è in qualche modo legato alla burocrazia, alle norme legali eccetera, non funziona. È solo un palliativo.

Paolo Antinori

Mi rendo conto, però tecnicamente è la stessa cosa dietro alla Disney e il suo avere sui loro creazioni. Se seguite i news o i media americani di anno in anno, a inizio anno c’è l’elenco di materiali vecchi che diventano di pubblico dominio. Qualche anno fa era stato il caso di Topolino in bianco e nero, quello del battello a vapore, per cui John Oliver era andato in televisione apposta per sbeffeggiare la Disney con un pupazzo in bianco e nero di Topolino per far vedere che lui poteva e nessuno poteva dirgli niente. Ancora quest’anno li stavano… quali sono di quest’anno? C’è Betty Boop quest’anno, mi ricordo, e qualcos’altro. Pluto forse.

Stefano Maestri

Sì, ma poi il problema è complesso anche dal punto di vista che diceva Alessio, perché ho letto un commento su LinkedIn di una persona italiana che si occupa di queste cose che diceva… adesso non cito la persona perché non voglio, non avendo davanti quello che ha scritto non voglio citare esattamente le sue parole, ma il concetto che a me è piaciuto è: ok, ma che differenza c’è con tutto quello che è stato editato fino a ieri su Instagram o altro, tutti i filtri che sono arrivati? Cioè l’AI è solo uno strumento più potente, ma di strumenti per cambiare le fotografie ne avevamo già tanti e nessuno ha mai detto niente fino ad ora.

[11:40] Emerging AI Models and Future Directions

Alessio Soldano

E c’è anche tutto ciò che è in mezzo tra quelle due cose lì, nel senso che ormai i software di editing hanno l’in-painting generativo da almeno un paio di anni, per cui già le foto sono state modificate e fino a ieri andava benissimo a tutti, inclusi tutti i vari editor che facevano e fanno tuttora questo di lavoro, e anche alle stesse celebrities perché magari nel fare il lavoro…

Stefano Maestri

Sì, nel senso che non hanno neanche una ruga.

Alessio Soldano

Esatto, nel fare il lavoro ti sistemi quello che c’è da sistemare eccetera. O ti metti in un contesto leggermente migliore di quello in cui hai fatto la foto o cose del genere. Per cui, di nuovo, dov’è la linea di separazione?

Paolo Antinori

Se proprio vogliamo, scusate, in passato ho lavorato per un’agenzia di comunicazione e altre robe in cui uno dei servizi che facevano era la fotografia e obiettivamente il nostro fotografo era bravo a fare delle belle foto della gente non bella, se volete la truffa ideologica nasceva già lì. Come fa a sembrare bella questa persona che la guarda dal vivo, mamma mia? Quindi, boh, diciamo è opinabile.

Stefano Maestri

No, è abbastanza opinabile questa parte qua. Però resta il fatto che siano immagini, siano documenti, siano citazioni… In un mondo che sempre più velocemente genera fake, forse non è il fake che deve essere marchiato, ma l’originale, è più facile in un certo senso essendo meno. Non lo so, questa qui è una riflessione che avevo, se qualcuno magari che ci ascolta ha qualche commento su questa cosa qua, sono curioso, magari ha più esperienza di me nel mondo legale.

Paolo Antinori

Stai con me su questo pensiero perché non so dove ti porto. Mi hai appena suggerito che una roba interessante su cui sperimentare potrebbe essere un prompt injection visivo nel nostro corpo. Quindi mi tatuo una frase di prompt sulla fronte e ogni volta che qualcuno carica la mia foto io triggero qualcosa. Tra cui: “non usate questa foto per modificare”.

Stefano Maestri

Tutto è possibile salvo che poi immagino che la prima cosa che fa uno che fa un LoRA, cioè un fine tuning di un modello per modificare la tua foto, è ignorare quel tatuaggio. Però vabbè tutto è possibile. No anche perché la generazione di immagini e tutto quello che gira attorno l’abbiamo detto nella puntata di chiusura del 2025, che peraltro va molto bene, ancora meglio quella delle previsioni del 2026. Probabilmente i nostri ascoltatori hanno una fiducia spropositata in noi pensando che azzeccheremo qualcosa di quelle previsioni. A parte le battute, però è uno degli ambiti insieme al codice che è stato l’uovo di Colombo se vogliamo dal 2025. Cioè se io penso di nuovo indietro al 2025 le tre cose che hanno cambiato il mondo delle AI sono il reasoning, il coding e le immagini. Se vuoi immagini e video vanno un po’ insieme e l’inizio del 2026 non è da meno perché ci sono novità tutti i giorni. GLM Image qualcuno l’ha visto per esempio?

Alessio Soldano

Sì, sì. Prima però lasciami dire una cosa sul discorso di prima. Io credo che una possibile soluzione dal discorso che dicevi — distinguere il fake dal reale — non sia nel marchiare che cosa è fake e cosa è reale, ma nella tracciabilità delle immagini. Cioè poi decidi tu se accettare un certo tipo di trasformazione e definire che per te quella trasformazione la rende fake. Se però l’immagine di per sé avesse marchiato da qualche parte la storia di come è uscita dalla macchina fotografica ed è arrivata a quello che guardi tu, se è uscita da una macchina fotografica, a quel punto lì tu potresti decidere che cosa fare di quell’immagine. Comunque, GLM Image? Sì.

[24:49] Exploring Image Generation Techniques

Alessio Soldano

È interessante perché è un cambio di paradigma se vuoi. Stiamo parlando di un modello open weight in realtà di ZI, che sono i signori che hanno fatto Z Image, che hanno fatto GLM e che se ne escono con appunto questo modello che definiscono di generazione di immagini autoregressivo discreto. Che cosa significa? Che praticamente abbiamo una prima parte di lavorazione che si basa su un modello come se fosse un LLM — in realtà è un LLM — che fa comprensione del testo piuttosto che dell’immagine, perché stiamo parlando di un modello sia text-to-image che image-to-image. E ne genera sostanzialmente una rappresentazione in embedding in token discreti, quindi non è un qualcosa che poi viene passato alla latent diffusion come in tutti i modelli che siamo abituati ad avere in questi ultimi mesi o anni, ma è un qualcosa che rappresenta proprio una descrizione semantica dell’immagine. Come se a partire da un testo oppure da un’immagine noi generassimo un JSON che ci dice qual è la composizione dell’immagine, quali sono i soggetti rappresentati, come interagiscono tra loro, tutte queste informazioni. E poi, una volta che abbiamo questa rappresentazione strutturale della semantica dell’immagine, da questo stato intermedio si fa la vera propria generazione dell’immagine. Quindi sono due passaggi, tant’è che leggevo che anche il training è fatto proprio in due step. Perché fanno questo? Per avere una fedeltà migliore nella generazione del testo e in tutte quelle scene complesse tipo infografiche piuttosto che diagrammi, queste cose un po’ più difficili dove i modelli a cui siamo abituati ultimamente fanno fatica.

Stefano Maestri

È interessante, assolutamente. Si potrebbe cercare di capire meglio quello che hai spiegato prima, poi magari facciamo domani una puntata di approfondimento come abbiamo fatto mesi fa sui modelli e potremmo vedere la differenza tra questo GLM Image e per dire Flux e Quen, che sono gli altri modelli open weight a cui siamo abituati a vedere la gente riferirsi per la generazione di immagini.

Paolo Antinori

Io ho trovato molto interessante la tua spiegazione, e anche chiara, perché se la normale manipolazione di immagine mi sembra magia nera — ovvero non riesco proprio a capacitarmi che togli il rumore dall’immagine e viene fuori l’immagine, cioè follia, simile al lavoro che fa lo scultore con un blocco di marmo — rimane comunque follia.

Alessio Soldano

È interessante questa tua cosa. È come dire che si passa dalla generazione come una scultura a… partiamo da dei blocchi Lego e con questi facciamo l’immagine se vuoi.

Paolo Antinori

Infatti mi sono ritrovato a pensare che la spiegazione di oggi che hai fatto, quella sul discorso semantico, è assolutamente più ragionevole. Sarà che il mio cervello ragiona più facilmente in termini di parole e di testo, dico: ok, certo, sarebbe sempre dovuto essere così, invece no, non lo era. Ci stiamo arrivando solo adesso ed è affascinante la scoperta di queste cose.

Alessio Soldano

In realtà c’è un periodo in cui era così. Adesso dovrei approfondire di più però se capisco bene i modelli DALL-E e i primi modelli di generazione di immagini di ChatGPT funzionavano in questo modo. Poi sono stati abbandonati e si è passati alle cose a cui siamo abituati ora semplicemente perché la qualità delle immagini che generavano non era sufficiente e soprattutto non erano stabili, c’era tantissima variabilità in quello che veniva generato a partire da testo simile da cui Stable Diffusion eccetera. Perché ci torniamo adesso? Mi verrebbe da dire perché gli LLM sono migliori e perché con tutto quello che abbiamo capito nel frattempo possiamo fare un lavoro migliore di quello che faceva DALL-E.

Paolo Antinori

Questo dettaglio che hai dato, ovvero di storicamente in che ordine sono andate queste scoperte e queste esplorazioni, mi ricorda tantissimo il dualismo tra AI simbolica e AI non simbolica. Abbiamo iniziato con l’AI simbolica, non andavamo da nessuna parte, siamo andati in quella non simbolica che ha dei grossi risultati, poi però ci è venuto in mente che forse ci fa comodo accoppiarla di nuovo con parte di quella simbolica per fargli i guardrail e tutta quell’altra serie di storie che la tengono centrata.

Stefano Maestri

E non solo, sapete che io tengo d’occhio costantemente arXiv per capire dove va la ricerca. C’è un trend nella ricerca in questo momento di provare a usare i modelli LLM con dei metalinguaggi da loro inventati, più efficienti dell’inglese per la comunicazione e soprattutto per i token di pensiero, che se vuoi è un linguaggio di programmazione in qualche modo perché diventano dei linguaggi più formali evidentemente della lingua inglese che hanno meno ambiguità e che danno risultati nella parte di thinking piuttosto importanti. Ovviamente tutte queste ricerche quando arrivano sono fatte con modelli un po’ vecchi ormai rispetto a quello che abbiamo oggi perché il tempo della ricerca non è il tempo dell’industria. Però in sé la ricerca è interessante. L’altro trend di investimento è l’explainability di cui tra l’altro parlo con un ospite in intervista — spoiler di chi è ma ascoltatela mercoledì prossimo. Però l’altro trend è l’explainability e ovviamente queste due cose vanno in contrasto perché se li fai ragionare in inglese puoi leggere il loro ragionamento, se li fai ragionare in aramaico antico fai un po’ più fatica. Già fai fatica leggendo in inglese.

Paolo Antinori

Ci sta questo che dice ed è affascinante e mi ricorda due cose. Quel vecchio demo di qualche tempo fa in cui avevano fatto vedere due device controllati da agenti fisici tipo due Alexa che scoprivano essere due agenti e quando si rendevano conto di essere due agenti iniziavano a mandarsi suoni come il modem. Dicevano: beh, tanto siamo due robot ed è più efficiente così, e quello era affascinante. E poi un altro articolo in cui qualcuno faceva un’analisi di quali siano i linguaggi naturali più friendly per gli LLM in termini di risparmio di token per via di come si costruiscono quei linguaggi, e la ricerca diceva che il polacco è la lingua più friendly per gli LLM. Non so perché, lo trovo comunque buffo che ci sia questo discorso di statistica di quale funziona meglio a livello di economia.

Stefano Maestri

Io intanto vi faccio vedere tornando all’argomento di prima che cosa ha fatto GLM che è disponibile in questi giorni su Hugging Face. Gli ho chiesto di creare un’immagine di un “young boy playing soccer with a red ball on snow” e questo è il risultato. A me colpisce abbastanza l’effetto della neve qui che è molto realistico secondo me. La posizione della gamba destra è un po’ innaturale però vabbè… ci sono i pantaloni che ingannano un po’. Però la prima impressione è notevole.

Alessio Soldano

Sì sembra che ci sia una scarpa sinistra sul piede destro. Allora io non ho provato ancora però quello su cui dovrebbe dare il meglio è prompt in cui tu chiedi proprio cose specifiche del tipo come è composta l’immagine, come interagiscono le cose eccetera. Bisogna mettersi lì un attimo con calma a studiare.

Stefano Maestri

Bisogna mettersi lì e fare non quel prompt dal cavolo che ho fatto io. Vediamo se c’è un prompt da eseguire…

Alessio Soldano

Gli altri modelli magari fanno casino, per capirci.

Paolo Antinori

Mi avete dato un’idea ragazzi che magari può diventare anche un progetto. Stai praticamente suggerendo che potrebbe essere utile avere una libreria di supporto al prompting simile a quello che è SuperClaude apposta per le immagini realistiche o a cartoni.

Alessio Soldano

Ma in realtà ce n’è di progetti così di enhancing di prompt per immagini, anche perché non è solo enhancing ma è anche styling. Per cui a partire da una descrizione generica tu la puoi arricchire da un punto di vista di testo, perché poi le nuances del testo fanno tutta la differenza del mondo e a seconda dei termini che usi riesci a trasferire una sensazione, un mood differente nell’immagine: toni dei colori, queste cose qua che ti portano a immagini completamente differenti. Io ho un paio di meta-prompt che tu dai a ChatGPT e dici: va bene ho questo prompt oppure ho questa immagine, rendimela più fotorealistica con tutta una serie di descrizioni di cosa vuol dire per te fotorealistico, e riscrivimi il prompt. E poi quel prompt lo riprovi a generare. Oppure: rendimi l’immagine come se fosse scattata da una macchina fotografica a pellicola 35 mm con imperfezioni, graffi o roba di questo genere.

Paolo Antinori

Figo, non sapevo che ci fosse, ha completamente senso. Però hai spinto il mio cervello nell’altro collegamento logico: c’è spazio per gli MCP server nella generazione delle immagini? E se sì, per fare che cosa? Per scriptare Photoshop o non lo so per cosa si potrebbero usare.

Alessio Soldano

Sia per queste cose dei prompt, sia per offrire migliorie specifiche di immagini, alla fine avere già delle ricette fatte esposte da un server.

Paolo Antinori

Quindi però per la parte di prompting del protocollo di MCP non per la parte di operazioni.

Alessio Soldano

Ma anche per la parte di operazioni, cioè l’MCP server che ripulisce l’immagine perché diventi adatta a farci i passaporti per dire. O che ti ridimensiona le immagini perché siano postabili su Twitter piuttosto che su Instagram.

Paolo Antinori

O quello che ti mette in bikini.

Alessio Soldano

O quello che ti mette in bikini. Però tornando al discorso delle immagini postabili su una certa piattaforma, uno dice “vabbè le riquadro devono essere quadrate”, ma non è sempre solo una questione di cropping. Con l’image-to-image puoi dirgli “tieni più o meno la stessa foto però deve essere quadrata” e allora magari scopri che se è un soggetto umano cambia leggermente la posizione per essere in modo tale che ci stia, magari accovacciato invece che in piedi.

Paolo Antinori

Grazie, è affascinante, ha senso quello che mi racconti.

Stefano Maestri

Intanto io ho preso uno dei loro prompt di esempio e noto che il testo non è perfetto come sostengono loro. Poi hanno voluto fare gli sboroni, hanno messo la parola “Raspberry” che è scritta correttamente, che era una delle cose difficili per molti LLM. Comunque sì, le immagini sono molto belle. È più affascinante forse del singolo dettaglio la spiegazione che ne hai fatto prima. Io e Paolo siamo al livello per cui se prendo questo o prendo un Nano Banana dico: boh le immagini sono belle, il mio livello di gusto non è abbastanza raffinato per apprezzare la differenza.

Alessio Soldano

Sì, ma di nuovo qui il focus non è il gusto o l’estetica, a loro interessa più la semantica dell’immagine. Infatti nel lancio dicono che hanno una qualità visiva comparabile agli approcci di diffusion attuali, non si sbilanciano più di tanto. Z Image sicuramente fa meglio, però il controllo sulla composizione e sul significato dovrebbe essere molto migliore. Ricordiamoci che parliamo di un modello open weight, quindi il punto di riferimento è Quen o Flux 2. Quando vai a vedere Nano Banana o Grok, chissà cosa fanno loro.

Stefano Maestri

L’impressione è che in Nano Banana Pro ci sia tanto preprocessing e post processing abbondante. Abbiamo visto che Quen è uscito con quello che fa le immagini a layer multipli, ma io non metterei la mano sul fuoco che Nano Banana sotto non faccia questa cosa e che il testo lo generi con un modello in un layer che poi sovrappone tutto il resto.

Paolo Antinori

Stiamo aspettando che il nostro amico Karpathy si annoi e faccia il suo progettino su GitHub dove fa parlare tra di loro 10 modelli visivi.

Stefano Maestri

Si può darsi. Il progettino era talmente semplice, potremmo metterci pure noi. Io con le immagini no, sono veramente una capra.

Alessio Soldano

E parlando di immagini e video open weight di questi giorni c’è un’altra news interessante che è LTX 2, che è un modello di generazione video. Ad oggi è il miglior modello open weight per generazione di video con audio: mette assieme quello che fa meglio l’audio, quello che fa meglio il video, quello che ti fa fare l’editing. Sostanzialmente fa video di qualità come One 2.2 ma è tipo 18 volte più veloce. Siamo arrivati a clip da 20 secondi che sono piuttosto lunghe. Ti semplifica la vita non poco. E poi uno dei problemi è che il video tende ad andare alla deriva verso la fine della clip, si perde consistenza. Se puoi fare video da 20 secondi, magari ti fermi a 15 e hai consistenza migliore di quella che avresti avuto prima con un modello da 10 secondi.

Paolo Antinori

Mi hai dato in mente un soggetto per un film di fantascienza: un’astronave visita i pianeti alla Star Trek e ne visita uno in cui vedono un sacco di comunicazioni, parlano con gli abitanti, ma in realtà non c’è niente, è soltanto un mega LLM e gli umani sono morti e lui genera video e parla al presidente e tu solo alla fine scopri che era tutto virtuale.

[37:02] AI in Healthcare: Opportunities and Ethical Concerns

Stefano Maestri

Molto bello. Parliamo di un trend che va al di là della notizia in sé. OpenAI è uscita con ChatGPT Health per la salute: un agente specializzato in cui c’è un modello e tutto quello che ci gira attorno per supporto sia agli utenti che ai medici per problemi relativi alla salute, in cui si possono caricare cartelle cliniche per ottenere consigli medici oppure per supportare il medico che deve fare la diagnosi. Perché dico che è un trend? Perché Anthropic sta lavorando a Claude Salute e Google ha rilasciato Gemma fine-tuned proprio per la salute. È uno dei business individuati. Già quello di ChatGPT non è disponibile in Europa per via della legislazione più stringente sulla privacy, ma i legali di OpenAI ci stanno lavorando.

Alessio Soldano

Secondo me se davvero il problema è solo la privacy lo risolvono perché basta avere una serie di rassicurazioni sul trattamento dei dati e secondo me lo aggirano.

Stefano Maestri

Sì è solo che la privacy nel medical in Europa è più stringente della privacy normale. Ma loro sono assolutamente fiduciosi. Avete un’opinione sull’utilizzo dei modelli LLM in aiuto al medico o per consigli privati di automedicazione?

Paolo Antinori

Io sono assolutamente a favore, al punto che se mi chiedete come mai i dati medici hanno una privacy più sensibile di altri non so dare un’informazione ragionevole. Che ve ne frega di sapere qual è la mia pressione sanguigna o quanto peso? Sul discorso di non concedere di usarli ai professionisti perché rischiano di sbagliare… allora gli togliamo anche internet e i libri e gli lasciamo la penna. Potrebbero sbagliare comunque.

Stefano Maestri

E poi potrebbero sbagliare comunque… anzi…

Alessio Soldano

Io penso che ce ne sarebbe tanto bisogno perché i medici sono oberati di lavoro. Ogni aiuto in quella direzione è utile. Penso che il problema di base sia lo stesso della guida autonoma: il discorso della responsabilità nel caso poi qualcosa non vada come dovrebbe. Un medico più AI fa meglio del medico da solo. Ma se c’è un errore di chi è la colpa? È colpa di chi ha scritto il software, di chi non ha vigilato? Bisogna trovare dei paletti.

[46:15] User Responsibility in AI Healthcare Decisions

Paolo Antinori

Io sono flessibile anche su quel discorso etico lì. Se il chirurgo sbaglia è colpa sua. Ma se non c’era il chirurgo tu eri capace di usare il bisturi? Perché incolpi quel povero Cristo che non si è tirato indietro? Un conto se c’è ovvia negligenza, ma se doveva lanciare testa o croce, povero Cristo, non è colpa sua.

Stefano Maestri

Leggevo la newsletter di Matteo Roversi che diceva che “agency” (responsabilità) è la parola più usata in Silicon Valley. Il problema è dove metti la responsabilità. Se lo vedi come tool, è chiaro che la responsabilità è tua. È nel momento in cui lo antropomorfizzi troppo che non è più un tool ma un’entità terza. In quanto sistema stocastico è un tool utilizzato da qualcuno che si prende la responsabilità. Diverso è nel momento in cui ChatGPT Health è usato dall’utente finale. Non conosco nessuno oggi che abbia fatto causa a Google perché si è automedicato e si è fatto del male. Perché dovremmo farlo con l’AI? Alla fine la responsabilità è tua che prendi la decisione di prendere la medicina.

[47:38] The Risks of Anthropomorphizing AI

Alessio Soldano

Quindi tu mi stai dicendo che questa cosa se ne esce con un opportuno prompt engineering per far sì che la versione Health sia ancora più cauta nel dirti: guarda ti consiglio di fare così però tieni conto che potrei commettere errori, parla comunque con un medico.

Stefano Maestri

Immagino di sì e immagino anche che nelle spunte che metterai ci sia scritto tutto questo. Capisco il rischio perché chi ci parla ha la sensazione di qualcosa di più di Google perché parla la tua lingua, genera la risposta. Quindi capisco il rischio di antropomorfizzarla, però alla fine la responsabilità è di chi fa l’azione.

[50:02] The Future of AI in Personal Health

Stefano Maestri

Se volete fare un fast forward a 10-20 anni, quando ci sarà la robot badante a mettere la medicina sul tavolo, allora i confini saranno sempre più sfumati. Sul medico io non vedo il problema: lì c’è il professionista che decide di usare uno strumento. Quando è l’utente finale ad usarlo i confini sono sfumati.

Alessio Soldano

Al tempo stesso, magari tu prima leggevi i bugiardini o chiedevi al tuo amico, cercavi su internet e decidevi di prendere tre pastiglie e poi stavi male.

Stefano Maestri

Esatto, nessuno ha fatto causa a Google perché ha cercato “mi fa male il piede” e ha preso il primo link che magari era una cagata.

Paolo Antinori

Il primo ChatGPT in cui ci consultiamo per la salute è nostra madre. Tua madre ti dice di prendere una pastiglia e tu lo fai.

Stefano Maestri

Però lì qualcuno si prende la responsabilità. Nel momento in cui lo utilizzi, la responsabilità è dell’utente finale. Più i tool sono avanzati, più sembrano umani nella conversazione.

Alessio Soldano

Io invece pensavo alla possibilità di avere qualcosa disposto in ogni caso ad ascoltare i tuoi dubbi, mentre l’umano magari ha fretta o non ti dà retta.

Stefano Maestri

Sfondi una porta aperta, l’ho già usato per farmi domande sulla mia salute. Il problema è di chi c’è dall’altra parte, non è soltanto dello strumento.

Alessio Soldano

Recentemente parlavo con un’amica ingegnere informatico che l’ha usato tanto per una situazione critica di un familiare e poi chiedeva conferma a mia moglie che ha un background sanitario. Le conferme sono arrivate perché era corretto quello che aveva capito. Può essere che l’utente meno esperto si faccia prendere la mano.

Stefano Maestri

È che non tutti sono ingegneri informatici. Sicuramente un tema divisivo.

Alessio Soldano

L’AI Health dovrà preparare l’utente al fatto che potrebbe ricevere informazioni che una persona umana non gli avrebbe dato per non spaventarlo. C’è quella parte di intelligenza emotiva che il medico ha e che magari nell’AI potrebbe non esserci.

[52:49] Debating AI Memory Systems

Stefano Maestri

Argomenti forti e divisivi. Passo ad avere un’opinione forte per il prossimo argomento: da qualche settimana la mia headline su LinkedIn è “I have no problem with strong opinions” (grazie ad Andrea Saltarello). Alessio ci ha messo in scaletta dei progetti sulla memoria degli agenti di coding: Simplemem e Claudemem. Ho parlato a lungo di memoria come “the next big thing”. Questi progetti fanno la memoria con un MCP server, un database relazionale e Chroma DB per gli embedding per matchare e cercare la memoria. Ma se guardo le skill di Claude (agentskills.io) è tutto molto più semplice: un file Markdown in una directory. C’è un tool che legge le skill e le mette in una piccola area di memoria non indicizzata. Quando Claude fa qualcosa si interroga se una skill è rilevante e carica il Markdown nel contesto. Niente di esotico. Chi è vicino a quello sviluppo sta semplificando tantissimo. Chi ci si approccia con piglio ingegneristico tende a progettare database e dipendenze. Ma forse i modelli sono più intelligenti di così: stiamo usando un bazooka per sparare a una mosca.

[01:04:58] The Complexity of AI Memory and Learning

Paolo Antinori

Non sono così drastico. Ci sono due aspetti: la scalabilità (non so se mangia il contesto) e l’auto-aggiornamento. Le skill Markdown sono statiche finché non le modifichi tu. Invece un sistema di memoria esterno presuppone che possa non essere statico, aiutando a mantenerli aggiornati. Se io non sono attivo a dire alla skill “aggiungi questo”, lei non lo fa. Se la skill sbaglia tre volte di seguito a mettere la password, non gli viene in mente di segnarselo. Questa parte rimane all’umano o a un terzo attore indipendente che controlla le sessioni e si accorge quando la skill deve venire migliorata. La soluzione non è ancora ovvia.

Stefano Maestri

L’idea di Anthropic è un marketplace delle skill come se fossero pacchetti da tenere in locale. C’è chi ha fatto del sistema multi-agente la ragione di vita (Manus) e chi invece dice che l’agente è quella roba minima capace di interagire con l’ambiente (Claude Code) a cui aggiungi skill o MCP server. Noi ingegneri cerchiamo di continuare a pensare come facevamo prima, ma gli LLM sono più intelligenti di quello che ci aspettavamo. Dovremmo concentrarci più sul ragionare sul contesto che sull’architettura. Bisogna chiedersi cosa deve memorizzare l’agente: dati o nuove skill? Esperienza o continuous learning?

Paolo Antinori

Espandere la memoria è un passo verso la superintelligence. Continuare a migliorare le proprie skill è un passo verso la general intelligence. Un essere umano impara dalla propria esperienza. Se fossi in grado di chiedere al sistema cosa ho mangiato in viaggio di nozze perché può essere utile per la salute e io non me lo ricordo, quella è una superintelligence.

Stefano Maestri

Sono d’accordo. Ma per un agente di coding ricordarmi com’era il codice prima? Ho Git per quello. Io sono convinto che serva la memoria, ma non so se serva una memoria semantica o procedurale. Mi verrebbe da dire procedurale: imparo a fare cose invece di ricordarmi i token che sono passati.

Alessio Soldano

Bisognerà fare delle prove. Lo guarderò bene anch’io.

Stefano Maestri

Bene, siamo arrivati a target. Paolo non lo vediamo più, fa anche brutto avere questa fetta nera. Ringraziamo tutti quelli che sono arrivati fin qui. Mettete stelline, campanelline e like. Metteteci dei commenti, abbiamo espresso tante opinioni forti e divisive e ci piacerebbe avere feedback per tornarci la prossima volta. Ciao a tutti!

Alessio Soldano

Ciao ciao, alla prossima.

Updated: