Intelligenza ibrida e dove va il valore con Stefano Gatti
Episodio #20 · Numerato
Ascolta o guarda anche su:
🎧 Spotify ·🎙️ Apple Podcasts ·▶️ YouTube
[00:00] Intro: Stefano Gatti, ex PM e data leader
Stefano Maestri
Ciao a tutti e a tutte, bentornati al nostro podcast, Risorse Artificiali. Per l’ennesima settimana siamo bravi e puntuali e stiamo registrando dei nuovi. Tra l’altro questa e’ una cosa terribile di Spotify che ti chiede di mettere il numero di puntata, io non so mai che numero e’. La cosa su cui perdo piu’ tempo quando carico i video e’ capire che puntata devo mettere. Siamo in quattro.
Alessio Soldano
Non le contiamo piu’.
Stefano Maestri
Se state guardando il video vedete che siamo in quattro. Abbiamo un ospite molto gradito e onore che e’ Stefano Gatti. Si chiama Stefano come me ma ha tutt’altra esperienza e tutt’altro livello, quindi siamo molto felici di averlo qui. A parte essere stato un vecchio collega, e’ stato il nostro PM, e garantisco a tutti, e adesso si puo’ confermare, nostro PM, mio e di Alessio in un vecchio lavoro. Garantisco che e’ da un lato una bella esperienza avere Stefano come PM, dall’altro, visto che si chiama Gatti, e’ come un gatto attaccato ai maroni. Lo abbiamo conosciuto cosi’ e abbiamo mantenuto questa amicizia. Stefano, introduciti da solo, non farmi fare l’introduzione.
Stefano Gatti
Grazie Stefano, troppo buono. L’unico record che ho superiore al vostro e’ la durata della newsletter paragonata alla durata del vostro podcast: vado per la 186esima settimana consecutiva di pubblicazione. Voi ne avete pubblicate diverse durante questi mesi, con grande continuita’, pero’ siete ancora un po’ lontani dal mio record. Niente, grazie innanzitutto per l’ospitalita’, mi fa molto piacere essere con voi perche’ sono un ascoltatore e visualizzatore, vedo anche il vostro podcast.
Sono Stefano Gatti, mi occupo di dati da tanto tempo. In sintesi sono un data lover, mi piacciono i dati in tutte le forme e in tutti i loro usi. Ho lavorato in questo mondo da tanto tempo, a cominciare dall’epoca che ha ricordato Stefano, che sono piu’ di 15 anni fa. Attualmente guido la parte dati di Nexi.
Alessio Soldano
Sono venti.
Stefano Maestri
Quasi venti, non toglierti degli anni, sono quasi venti.
Stefano Gatti
No, sono quasi venti, sono piu’ di 25 nel mondo dei dati e qualche anno in piu’ nel mondo degli atomi, perche’ ho avuto una breve esperienza lavorativa nel mondo piu’ industriale. Ogni tanto, per passione e per non dimenticare il passato, visto che sono diversamente giovane, scrivo. Quello che stavi facendo vedere e’ l’ultimo libro che abbiamo realizzato con Alberto Danese, che e’ un amico e collega.
[01:23] La newsletter da 186 settimane e il libro con Alberto Danese
Stefano Maestri
Magari verra’ a trovarci in un futuro, cosi’ spoiler.
Stefano Gatti
Lui e’ un vero data scientist e ha la fortuna di scrivere ancora codice, per cui puo’ raccontare cose piu’ interessanti del sottoscritto. In questo libro abbiamo provato a raccontare nel modo piu’ semplice possibile ma non semplicistico la rivoluzione in corso dell’utilizzo dell’intelligenza artificiale, sia nel mondo consumer che nel mondo aziendale. Lo abbiamo fatto attraverso quattro aree di conoscenza, perche’ lavorando ma anche frequentando contesti diversi dalla nostra azienda abbiamo trovato in questi ultimi mesi grossa confusione su concetti di base: intelligenza artificiale predittiva, generativa, l’importanza di misurare quello che si fa per capire quanto l’intelligenza artificiale funziona o non funziona.
Abbiamo poi provato a suggerire quattro persone che secondo noi stanno facendo la storia, molte le avete citate anche voi. Karpathy credo che sia una delle persone che ho sentito piu’ citare anche da voi. Visto che siamo appassionati di come si apprende, abbiamo provato a suggerire alcuni modi per entrare nel mondo dell’intelligenza artificiale e poi, last but not least, abbiamo provato a dare una prospettiva del mercato, cioe’ l’impatto che la tecnologia e l’intelligenza artificiale stanno avendo nei vari ambiti dell’economia. Questo e’ un po’ in sintesi.
[05:29] Il libro come medium nell’era AI: ebook vs cartaceo
Stefano Maestri
Io ti invito poi a mettere in un commento tutti i link che vuoi quando avremo pubblicato il podcast: sicuramente alla cultura del dato, la newsletter di Stefano che se non seguite dovreste, e anche assolutamente al libro. Il libro che ho letto mi e’ piaciuto molto. Ti faccio una domanda fuori dai contenuti del libro. Di nuovo invito tutti a leggerlo perche’ i quattro pilastri sono interessanti. Una domanda un pochino fuori da quel contesto ma su cui ci confrontavamo io e Alessio in una chiacchierata in questi giorni: il libro come medium nell’epoca dell’intelligenza artificiale e di internet e’ ancora attuale? Sicuramente per un verso si’, il mettersi a terra, fermarsi a riflettere. Ma da un altro verso il vostro libro e’ pieno di link interessanti che, se uno ha comprato la versione cartacea, non ha a comodo. Te la sei posta questa domanda?
Stefano Gatti
Si’, ce la siamo posta. Ti do, se vuoi, due risposte. Una personale e una data driven. Quella personale e’ che comunque e’ qualcosa che e’ superato, secondo me, soprattutto nella sua forma cartacea. Pero’ devo dire che, quando vado a ragionare sulle dinamiche secondo me eccessive a livello di velocita’ rispetto a quello che il nostro cervello, che si e’ evoluto finora, consente di seguire, ho capito che e’ utile.
In questo film che sta scorrendo molto velocemente che e’ l’evoluzione, la vita tecnologica, ogni tanto e’ importante fare delle fotografie. Tu Stefano sei un amante delle fotografie, anche Alessio. La fotografia ti consente di ragionare, di fermare un attimo il momento.
Stefano Maestri
Adesso e’ piu’ di me. L’uomo delle immagini e’ lui.
Stefano Gatti
Uno dei grandi pensatori, per me, e’ Nassim Taleb, che racconta questo effetto Lindy: tecnicamente le cose nuove, le cose piu’ recenti, hanno meno probabilita’ di rimanere rispetto alle cose che sono sopravvissute al tempo. Questo funziona, secondo me, anche per un libro. Anche nella newsletter cerco di non dare l’ultima novita’: il posizionamento e’ di provare a vedere le cose magari con uno, due, tre mesi di distanza, che sono secoli in questo momento.
Pero’ questo effetto Lindy, che Taleb racconta con un gustoso aneddoto, dice: quando i ragazzi giovani, lui insegna anche all’universita’, gli chiedono libri da leggere, lui dice “non leggete le ultime novita’, leggete i classici”. Perche’ se i classici sono sopravvissuti cosi’ tanto tempo vuol dire che hanno un valore. Tornando a noi, il libro ha un valore nel momento in cui dai a delle persone, che magari non sono super tecnici, delle fondamenta che riescono a sopravvivere nel tempo.
Ti do anche il dato data driven. Pensavamo, visto che l’abbiamo lanciato solo su media digitali, qualche post LinkedIn e niente di piu’, e visto che il pubblico e’ tipicamente abbastanza nerd e tecnologico, che l’ebook andasse molto di piu’ del libro cartaceo. Ebbene, dati di vendita di ieri, li controllo ogni tanto: il 70 per cento ha preso il libro cartaceo, il 30 per cento ha preso l’ebook. Nonostante quello che tu dici sia piu’ scomodo, nonostante costi.
Pero’ devo dirti, sui meccanismi della memoria, ho letto recentemente un bellissimo paper di Barbara Oakley, che e’ una delle studiose americane piu’ interessanti sul tema neuroscientifico di come si apprende. Dovrebbe uscire fra due o tre settimane in newsletter il mio commento. In sostanza, nonostante lei sia una grandissima fanatica dei tool digitali, dice che ci sono dei meccanismi ancora intrinseci alla nostra evoluzione come specie che ci portano a imparare meglio se utilizziamo dei meccanismi che sembrano datati nell’era delle AI. E’ superato come punto di vista, ma attenzione, il nostro cervello non si evolve come l’LLM, con la stessa velocita’.
Paolo Antinori
Stefano, posso raccontarti una curiosita’ che mi hai fatto venire in mente sul dualismo cartaceo-digitale? Un racconto che ho ricevuto da un altro amico autore cartaceo che stava parlando con sua cugina e gli stava chiedendo: allora hai letto il mio libro? Un racconto di famiglia. Lei gli fa: si’, ho comprato l’ebook. Lui si e’ super stupito del fatto che questa cugina non super tecnologica avesse scelto il medium ebook anziche’ il cartaceo. Le fa: come mai? E lei gli ha dato una risposta molto logica a cui nessuno aveva pensato, neanche io: perche’ nel libro stampato il carattere e’ fisso e io sono vecchia, non ci vedo piu’ niente. Mentre nell’ebook posso mettere la grandezza che voglio. Abbiamo pensato che fosse assolutamente giusta e ragionevole. Te la raccontavo se mai dovrai ragionare sui tuoi dati.
Stefano Gatti
E’ vero, effettivamente i libri ebook sono piu’ accessibili per due motivi: il tema della grandezza del carattere, ma l’altra cosa che mi ha raccontato un altro amico che ha preso l’ebook e’ che puo’ regolare molto bene il contrasto, almeno in alcuni, e il contrasto facilita la lettura. Poi secondo me c’e’ un tema che dipende anche da dove usi e leggi l’ebook. Io personalmente sono infastidito quando leggo un ebook da un device connesso. Sono molto infastidito dalle notifiche, mentre la lettura ti isola e ti focalizza un po’ di piu’. Il cartaceo per la sua natura ti aiuta. Pero’ ripeto, e’ un tema di come e dove tu leggi.
Stefano Maestri
Per dire: io leggo a letto mentre la persona di fianco a me magari dorme, quindi qualcosa di retroilluminato che non dia troppo fastidio, tipicamente un ebook, e’ fondamentale.
[13:17] Nvidia investe 100 miliardi in OpenAI: il flusso circolare
Stefano Maestri
Partiamo invece con qualche notizia, cosa e’ successo nelle ultime settimane. Paolo, tu mi raccontavi di una lettura che hai fatto su acquisizione di investimenti che ti aveva colpito.
Paolo Antinori
Si’, stavo leggendo e sentendo anche altri commenti riguardo all’annuncio di Nvidia di investire 100 miliardi in OpenAI. Ora, questi numeri per noi sono un po’ astratti, almeno per me. Magari chi e’ piu’ avvezzo all’economia e alla matematica li dimensiona, io non li dimensiono tanto. Lo leggo come: Nvidia spende tanti soldi per fare qualcosa con OpenAI.
La cosa curiosa di questa transazione, che invece e’ facilmente comprensibile, e’ che fino all’altro giorno il flusso del denaro era inverso: era OpenAI che ha bisogno dei servizi di Nvidia, fisicamente l’hardware, da comprare per usare i suoi giocattoli. Nvidia ha incassato tutti questi soldi e adesso dice: cosa ci faccio? Magari posso investirli in OpenAI o posso comprare qualcosa indietro da loro. E’ un discorso di circolarita’ dell’economia tra due player partner che potrebbe essere significativo.
Potrebbe generare previsioni di cicli simili tra altri. C’era chi si chiedeva quale fosse il ruolo o la posizione di Anthropic in tutto questo, se si troveranno anche loro un partner. C’era chi speculava AMD, Intel. Non si sa, e’ facile e molti se lo augurano perche’ una competizione in tal senso potrebbe solo che spingere l’evoluzione della tecnologia. A tutti gli effetti stiamo vedendo questo doppio canale di flusso di denaro molto interessante, a mio avviso.
Stefano Maestri
Intanto i cinesi sicuramente questa partnership la fanno con Huawei, che sta facendo i chip alternativi a Nvidia. Gli ultimi training di DeepSeek, rumor, li danno tutti su chip Huawei. Poi c’e’ un’altra cosetta di cui mi piaceva sentire il vostro commento, che e’ fondamentale, credo.
Nei cicli di hype o bolle economiche che abbiamo visto in passato nel mondo della tecnologia, e’ un pattern ricorrente il fatto che la grande salita prenda prima l’hardware, perche’ hai bisogno dei chip per fare le cose, e poi arrivi al software. In realta’ qua gli investimenti sulla parte software sono stati enormi gia’ prima, perche’ tutti i soldi che hanno raccolto i vari OpenAI, Anthropic e compagnia bella sono stati enormi. Pero’ il modello di revenue, piu’ che di investimento, di solito ha due fasi: prima l’hardware, poi il software. Se ricordate, nel ciclo di internet all’inizio fu un grande boom di Cisco, che faceva apparecchi di connessione, e poi sono arrivate le altre che poi sono scoppiate. Potrebbe anche esserci quella cosa li’.
Possiamo approfittare della presenza di Stefano per girargli un po’ questa domanda, perche’ tra i tanti dati che ha ci sono quelli del venture capital. La mia domanda e’: a parte questi che muovono botte di centinaia di miliardi alla volta, cosa succede in un venture capital un pochino piu’ vicino, almeno geograficamente, a noi? Cosa succede in Europa, in Italia, ma anche nel mondo, al di la’ di questi grandi numeri, se hai qualche dato in mente?
[17:30] VC e AI: dove sta andando il valore tra LLM e software verticale
Stefano Gatti
Si’, ti rispondo, perche’ io come SuperSight Project sono anche advisory di un piccolo fondo OVC italiano che investe in tecnologia, quindi ci stiamo facendo da un po’ di tempo questa domanda di dove sara’ il valore, dove sara’ piu’ valore nei layer tecnologici dell’intelligenza artificiale. Tu hai letto molto bene secondo me anche la storia. Io sono diversamente giovane, ricordo quando mi sono laureato nel 1994: feci una tesi in Digital Equipment, che probabilmente nessuno di voi conosce ma poi e’ confluita in altre aziende tecnologiche. Sembrava allora che tutto il valore fosse nell’hardware, il software fosse qualcosa messo li’ ma che non avrebbe avuto futuro tranne che per l’hardware.
Due anni dopo, esposizione del PC anche in Europa, il software ha dominato il mondo. Qualcuno ha detto “software is eating the world” mi sembra nel 2012. Adesso qualcuno dice giustamente “AI is eating the world”. Pero’ c’e’ stato prima fino agli anni 90 hardware, poi software, e su internet stessa cosa. La grossa domanda che i VC di tutto il mondo si stanno facendo sulla parte AI e’ che oggi, se andiamo a vedere, le uniche aziende che hanno avuto grandissimi benefici dalle AI sono Nvidia, che e’ la parte piu’ bassa della tecnologia, le GPU.
Stanno crescendo tantissimo e hanno valore anche se non a livello di profittabilita’, perche’ Nvidia ha grandissimi livelli di profittabilita’ e non sa dove mettere i soldi. Infatti ha investito in Anthropic, ha preso il 5 per cento di Intel non so se avete visto.
Stefano Maestri
Si’, e poi grandi investimenti in robotica anche in collaborazione con OpenAI e Google.
Stefano Gatti
Stanno facendo grandissimi investimenti in robotica nella logica anche dei big tech. Anche Google, nonostante abbia avuto non cosi’ grandi successi, le altre investono in business vicini per diversificare. Per esempio, alcuni stimano che nel 2030 una grossa parte del valore di Google non sara’ piu’ la ricerca ma saranno le macchine a guida autonoma, perche’ ha una divisione molto importante che e’ Waymo.
Stefano Maestri
Waymo!
Stefano Gatti
Waymo. Pare che qualcuno dica, ho letto delle ricerche che dicono che nel 2030 il 50 per cento del valore percepito da chi investe in Google sara’ Waymo e non il business attuale. Tutto da vedere, sono tutte scommesse, pero’ la robotica come avete fatto vedere…
Stefano Maestri
Tra l’altro abbiamo un altro bel argomento su Google e robotica dopo, spoiler, cosi’ state attaccati al nostro podcast.
Stefano Gatti
Comunque, i layer: Nvidia una grandissima crescita profittevole, LLM grandissima crescita, grandissimi investimenti di tutti. Anthropic, OpenAI ma anche tutto quello che ha fatto Meta, e li’ c’e’ poca discussione che il valore e’ cresciuto, anche se non c’e’ ancora profittabilita’. Sono ancora non profittevoli ma diventeranno senza problemi secondo me con questo livello di utilizzatori tutto nuovo.
La grossa domanda e’ se ci sara’ valore sullo stack sopra, che sono le aziende che realizzano software 2.0 o software AI driven, chiamatele come volete, che utilizzano questi LLM ma in maniera verticale. Tutte le aziende dalla Lovable al Cursor, ma anche Lexroom se andiamo a vedere in Italia, notizia recente. Su questa cosa la domanda e’: ce la faranno? Queste aziende hanno grandi fondi, molte hanno una ramp up di subscription molto grande, vedete Cursor, Lovable, ma non sono ancora profittevoli e i VC non hanno ancora sicuramente monetizzato.
E’ la tesi di investimento dei piu’ importanti fondi VC al mondo, molti come quello di Andreessen Horowitz, a16z, il piu’ importante al mondo. Se qua ci stanno scommettendo un sacco, non e’ detto che comunque sia vero, perche’ per esempio sul tema blockchain hanno investito anche bene ma non ha avuto ancora tutti questi ritorni. Non lo darei per scontato, ma credo che si’, ci sara’ valore in maniera un po’ piu’ selettiva.
Stefano Maestri
Scusami, per comprensione mia e degli ascoltatori, mi stai dicendo che uno dei grandi investimenti dei VC e’ comunque sul layer software in questo momento.
Stefano Gatti
E’ sull’AI software, si’. Oggi gli investimenti si stanno spostando, nonostante siano ancora grandi, dagli LLM in senso stretto al mondo software, cioe’ di quelle aziende che utilizzano gli LLM e fanno software con intelligenza artificiale al loro interno e si stanno verticalizzando.
Alessio Soldano
Gli agenti.
Stefano Gatti
Secondo me questa e’ un po’ la tendenza. Credo che la verticalita’ sara’ il modo per cui l’intelligenza artificiale verra’ adottata in maniera significativa e con profitto dalle aziende. Verticalita’ vuol dire Lovable e Cursor, faccio un esempio, per lo sviluppo software. Lexroom per gli studi legali. Ci sono un sacco di verticali sull’HR, strumenti che analizzano i dati delle interviste dei candidati in maniera automatica e facilitano il lavoro dell’HR. C’e’ anche tutto il filone legato alla data science, automatizzare. Quindi verticalita’ sempre piu’ specifiche per industry o area aziendale: legal, HR.
Stefano Maestri
Anche per avvalerci dell’esperienza degli anni passati: nel software di base Big Tech Take It All, perche’ alla fine l’Anthropic di turno che si sta focalizzando adesso molto sullo sviluppo software, perche’ ha nominato Cursor e Lovable, sta cercando di fare Take It All li’. Poi ci sono verticali specifici, il Lovable in particolare piu’ che Cursor in my humble opinion, che possono avere il loro spazio.
[25:46] Y Combinator come finestra sul futuro: i copilot specializzati
Stefano Gatti
Siete curiosi? Secondo me la migliore finestra, lo dico sempre nella newsletter, per vedere l’evoluzione di questo ambito, anche di dove stanno andando gli investimenti, qual e’ il trend, e’ vedere il database di Y Combinator. Y Combinator e’ l’acceleratore mondiale il cui CEO e’ stato fino a qualche anno fa Sam Altman, il CEO di OpenAI. E’ un acceleratore dove vengono investiti soldi in startup a inizio del loro percorso. In questo dato ci sono attualmente quattro batch, cioe’ quattro accelerazioni all’anno, prima c’erano due ogni tre mesi, ci sono circa 200 startup che hanno una selezione molto difficile, meno del 2-3 per cento di quelle che applicano riescono ad entrare nell’acceleratore.
L’acceleratore cosa da’? Da’ supporto, network, qualche soldo per accelerare. Li’ vedete, divise per ambito, le startup che hanno avuto investimenti negli ultimi 3 mesi, 6 mesi. C’e’ il database completo, trovate anche Airbnb per fare un esempio di un’azienda che e’ stata accelerata credo nel 2010. E’ un database clamoroso e vedete l’evoluzione.
Alessio Soldano
Quindi e’ tutto pubblico questo.
Stefano Gatti
Se vedete gli ultimi batch, vedete quali sono i settori piu’ trendy negli ultimi mesi, anzi anni. Uno dei trend e’ “copilot for”, cioe’ intelligenza artificiale, un copilot, un LLM specializzato per un’area aziendale, per un task. Questa cosa e’ un trend, anche perche’ come dicevi tu cosa manca per avere una buona resa in azienda, una buona ottimizzazione degli LLM in azienda, ma anche legata alla conoscenza aziendale? Oggi e’ un’esperienza che hai con un chatbot generico che non ha la tua conoscenza. Per integrare la conoscenza che hai in azienda, in un’area aziendale, con la potenza degli LLM, questi software possono essere parzialmente integrati magari in azienda perche’ ci sono dei plugin di software esistenti.
Un esempio e’ Salesforce che ha un venture capital specifico che sta investendo in questo ambito per realizzare cose che utilizzano le intelligenze artificiali e aumentano l’esperienza del loro parco clienti. Detto questo, c’e’ un tema anche di dove si investe, perche’ purtroppo questi investimenti citati da Y Combinator sono nella costa est. Oggi, per darvi un dato, il rapporto di investimenti in AI tra America, Stati Uniti, Europa e Italia e’ di dieci a uno.
Stefano Maestri
E’ interessante e’ uno spaccato, magari mettiamo qualche link per chi vuole approfondire. Questo ci da’ un gancio. Intanto ho nominato Sam Altman, che io qualche volta in podcast ho ricordato che venisse da Y Combinator. Quando dicono che OpenAI non e’ profittevole, non si sa come fara’ la exit, eccetera, se c’e’ uno che sa come si fanno le exit, e’ Sam Altman, nel senso che ne ha fatte qualcuna. Quindi tutto sommato.
[28:53] OpenAI checkout: l’AI entra nell’e-commerce
Stefano Maestri
Questo ci da’ un gancio per parlare del prossimo argomento: questo trend che si comincia a vedere di fare profitto con le AI nella maniera piu’ classica del mondo, del profitto internet, cioe’ vendere attraverso l’AI. Notizia di questi giorni che OpenAI sta installando in ChatGPT, l’ha gia’ fatto negli Stati Uniti, arrivera’ presto in Europa, il checkout dei prodotti trovati con ChatGPT. Questa roba qui mette il business di OpenAI un pochino sulla vendita. Pare che abbiano un partner con Shopify e un altro partner che adesso non ricordo. Va a dare fastidio al business classico di Google. Non tanto secondo me quello di Amazon, perche’ il marketplace di Amazon e’ chiuso, eccetera, ci entra Amazon stessa, ma tutti quegli acquisti che venivano dalla ricerca Google potrebbero un pochettino spostarsi li’. Non so se voi vi siete fatti un’opinione.
Alessio Soldano
Sostanzialmente sono nella posizione di influenzare cosa viene comprato e cosa no, perche’ e’ un po’ come quello in un motore di ricerca: a seconda dei risultati che tu ritorni stai implicitamente favorendo l’acquisto di una cosa piuttosto che di un’altra.
Stefano Maestri
E’ ancora piu’ potente, perche’ sembra un consiglio vero quello dell’AI di turno, non e’ soltanto il link e basta.
Alessio Soldano
Si’, perche’ e’ tailored su quello che tu gli hai chiesto.
Stefano Gatti
Sicuramente per me e’ un trend importantissimo ed e’ uno dei cambiamenti piu’ interessanti che vediamo in generale: quello della ricerca non piu’ solo attraverso un motore di ricerca classico ma tramite un LLM o comunque un chatbot. C’e’ molto dibattito e investimenti in aziende e startup che facilitano l’essere visibili dai motori, dagli LLM, all’interno della conversazione. Si parla di migrazione da SEO a GEO, LLMO, poi tutti si inventano. Sono degli investimenti.
Stefano Maestri
Cioe’ l’equivalente del SEO ma non hanno ancora trovato un nome.
[31:10] Da SEO a GEO: la visibilita’ nei modelli generativi
Stefano Gatti
Se non sbaglio c’e’ una startup americana che ha avuto 40 milioni di dollari di investimento e che fa specificatamente questo servizio. Oggi e’ ancora molto a livello embrionale ma e’ un tema molto grosso, connesso a quello che dicevi tu, perche’ poi oltre a cercare devi farti acquistare. Quindi il passo all’e-commerce e’ interessante come dicevi tu con il nuovo protocollo.
Devo dirti, l’unico mio dubbio, ne abbiamo parlato anche qualche giorno fa, non e’ tanto se questo avverra’. Avverra’ sicuramente. E’ piu’ che altro il tempo. Perche’ se vediamo il trend storico dell’e-commerce, l’e-commerce tecnicamente era possibile, era facilmente utilizzabile dagli inizi del 2000, Bezos, Amazon…
Stefano Maestri
Anche prima. PayPal e’ del 1997 mi pare, non scherzo, ‘97.
Stefano Gatti
Esattamente, 1997. Pero’ soprattutto in molti settori, addirittura l’abbigliamento, in Europa, si e’ arrivati a usare effettivamente il canale solo dopo Covid. C’e’ un tema anche di quanto ci fidiamo a far fare una transazione economica a un agente. Non e’ una cosa che non facciamo gia’, perche’ c’e’ la transazione ricorrente con carta di credito che facciamo su Amazon, non so se voi la utilizzate. Io la utilizzo per alcuni servizi: di fatto e’ un agente preagenti, dico io, perche’ alla fine tu consenti che Amazon ti mandi dei materiali e ti faccia la transazione senza toccare, senza click. Pero’ di Amazon ci siamo fidati, ci e’ voluto anni.
Stefano Maestri
Si’.
Stefano Gatti
Va capito quanto noi ci fidiamo. Il protocollo e’ diviso in parti, ci sono diverse parti. AP2, AP2, si’.
Stefano Maestri
Tu dici il protocollo di Google, AP2? Si’, di cui c’e’ anche un po’ di spiegazione. Tu Paolo gli avevi dato un’occhiata, no, ad AP2?
[34:12] Il protocollo AP2 di Google e la fiducia agli agenti
Paolo Antinori
Si’, ho dato un’occhiata perche’ mi ha affascinato la tematica principalmente per gli argomenti che stava citando Stefano. E’ un protocollo, e quindi il focus per noi sviluppatori potrebbe essere “spiegatemi bene che cosa fa, come comunica”. Ma ho trovato la domanda di base piu’ affascinante della risposta, che e’ proprio quella che diceva Stefano. La problematica in quanto tale richiede solo che io mi fidi quando sono davanti al computer, che se sto cliccando le cose il computer non mi freghi e mi garantisca sicurezza, che i soldi arrivino, tracciabilita’ e tutto quanto.
Come dicevamo prima, l’ottima osservazione di un modello pre agentico nascosto in Amazon in cui nessuno forse ci aveva fatto caso, quello degli acquisti ricorrenti, la’ dove invece nel mondo attuale io mi voglio fidare dell’LLM e dirgli di comprarmi il biglietto degli Oasis, che avevano l’asta, quando costa meno.
Devo fidarmi che lui non si sbagli. Anziche’ comprarmelo per Milano non me lo compri a Manchester, devo fidarmi che me lo compri alla data che ho detto io, devo fidarmi che non abbia sbagliato 1-0 e abbia un’allucinazione proprio quando doveva pagare e non ne compri 10. Ci sono un sacco di elementi filosofici, se volete, che sono molto umani e molto naturali per il solito dualismo quando ci chiediamo quando gli LLM ci capiranno davvero.
Alessio Soldano
Non ne compri 10.
Paolo Antinori
Capiamo davvero in base all’esperienza, agli errori, un sacco di cose che abbiamo in mente che facciamo quasi a fatica a stare quando spieghiamo le cose a qualcuno e che invece si nascondono dietro l’angolo quando vuoi dare fiducia di questo tipo. Il focus e l’attenzione della definizione di questo protocollo AP2, al di la’ del protocollo stesso di comunicazione bot e risposta, e’ proprio osservare questi tratti, queste caratteristiche importanti, tra cui ad esempio la tracciabilita’ o la possibilita’ di annullare una transazione di questo tipo.
Adesso sto un po’ esagerando e deviando, pero’ per farvi capire il rischio: immaginate la fantascienza di basso livello dove si da’ al robot, forse Futurama c’e’ l’esempio in cui Babbo Natale diventa cattivo e non riescono piu’ a spegnerlo e rischia di uccidere tutti quanti. Immaginate questa cosa: tu gli hai dato la sua richiesta, la tua richiesta era giusta, poi nel tempo quella richiesta diventa obsoleta ma se non riesci a cancellarla potresti avere degli effetti collaterali.
Tutti questi effetti non sono banali e sono la parte che mi ha affascinato maggiormente, per cui ho trovato interesse in questo lavoro coordinato da Google principalmente, della definizione del protocollo AP2, in cui classifica il pagamento legato alla carta, il pagamento legato agli intenti, cioe’ la dichiarazione di intenti, o addirittura la controparte, ovvero il ruolo della fiducia che la banca stessa deve mettere per accettare e garantire la tua autorizzazione ai pagamenti. E’ un meccanismo di policy o di grosse organizzazioni o di grossi sistemi che ho trovato molto affascinante e che non da’ per scontato che si sia gia’ risolto adesso, ma il fatto che venga affrontato e’ molto interessante. Incoraggio tutti quanti a seguire almeno un attimino l’argomento perche’ e’ meno semplice di quanto non sembri.
Stefano Maestri
Io mi metto il cappello nerd, che faccio fatica a togliere mediamente. Se siete interessati anche a tutto il mondo della crittografia, e’ interessante da leggere il protocollo anche per quello, perche’ tutte le cose che Stefano e Paolo adesso sollevavano sono proposte come soluzione. La proposta di soluzione e’ attraverso firme crittografiche che girano a destra e a manca, in cui c’e’ la prova di qualcosa, ad esempio una firma crittografica per provare la mia volonta’ di acquistare qualcosa a un certo prezzo, che la banca accetta in quanto firmata da me. Per chi si e’ occupato di crittografia e’ un aspetto abbastanza affascinante.
Alessio Soldano
Senti Stefano, ti faccio una domanda io: questa cosa qui non ricorda un pochino tematiche di nuovo sul discorso blockchain, eccetera, il fatto di tracciare i pagamenti?
[38:57] Blockchain rivisitata: X402 ed ERC 8004 per i micropagamenti
Stefano Maestri
Lo Stefano sono io, guarda alla domanda. Allora, io ti rispondo da un punto di vista protocolli, tecnico, eccetera, all’altro Stefano lascio il resto. Si’, c’e’ tanto lavoro li’. AP2 e’ un’estensione di A2A, Agent to Agent Protocol, in cui sapete sono ampiamente coinvolto.
Stefano Gatti
Rispondo anche io perche’ anche io ho un’osservazione alla tua domanda.
Alessio Soldano
Si’, proprio perche’ citavi crittografia eccetera.
Stefano Maestri
Non e’ l’unica estensione su cui si sta lavorando in Google e non solo Google. Ci sono due lavori grossi: una come estensione di A2A gestito da Google ma che arriva da Coinbase. Coinbase quindi decisamente mondo criptovalute, blockchain, eccetera. Ed e’ un protocollo che si chiama X402.
Io questo lo cito per i nostri amici piu’ nerd, perche’ secondo me e’ un’idea abbastanza geniale in se’. Perche’ 402? Perche’ l’errore 402 di HTTP e’ li’ dalla versione HTTP 1.0 e nessuno l’ha mai usato.
Alessio Soldano
E nessuno lo usa.
Stefano Maestri
Il 402 vuol dire payment required. Ho trovato geniale riutilizzare, intanto abbiamo perso Stefano che probabilmente si ricollegera’, riutilizzare questo errore gia’ definito nello standard HTTP per inserire qualcosa di nuovo. Anche quello, un protocollo in estensione di A2A, e’ leggermente scumato rispetto a quello che dicevamo di AP2, perche’ AP2 e’ un protocollo pensato per le transazioni che un umano delega agli agenti. Quindi io voglio comprare le scarpe a quella cifra e l’agente fara’ per me. Invece X402 ha l’ambizione di regolare micropagamenti tra gli agenti, ovvero il servizio fornito da un agente e’ a pagamento, e quindi utilizzero’ X402 per regolare questi micropagamenti tutti on chain.
Altro protocollo interessante che vuole essere estensione ad MCP di qualunque cosa, di cui ho letto le specifiche ieri, anzi proprio ieri parlavo con le persone che stanno definendo questo standard di Ethereum Foundation. Con la nomenclatura facilmente mnemonica che solo Ethereum Foundation puo’ usare si chiama ERC 8004. E’ al vaglio di Vitalik, per chi sapesse chi e’ Vitalik in Ethereum Foundation. Oggi lo validava Vitalik, quindi e’ pronto per il rilascio o per essere buttato a mare, cosa che succede spesso.
Alessio Soldano
ERC qualcosa.
Stefano Maestri
Pero’ e’ interessante la formalizzazione di un’idea che io ho scritto anche in newsletter intorno a maggio: l’idea di fare il discovery degli agenti zero knowledge proof, quindi untrusted, la capacita’ di andare a cercare agenti di cui intrinsecamente non ho una base mia di fiducia, cioe’ non li conosco, ma mi vengono certificati, hanno una reputazione basata su cose successe nella blockchain e anche un livello di assicurazione, per cui hanno un costo ma viene decurtato in caso non rispettino certi livelli di servizio.
Anche qui c’e’ questa definizione di protocollo. Al di la’ dello specifico, e’ interessante vedere come ci sia tanto movimento che lega un po’ le transazioni digitali e in particolare quelle untrusted, quindi blockchain based, con il mondo dell’AI. Quella cosa che diceva prima Stefano relativa al fatto che blockchain non ha ancora avuto un reale ritorno a parte quello che e’ la pura finanza di Bitcoin e company, potrebbe avere un suo nuovo ruolo e un suo spazio applicativo nel mondo degli agenti AI. E’ un “potrebbe” ovviamente, e’ tutto molto embrionale al momento, pero’ e’ interessante vedere quanto movimento ci sia di big tech e anche di compagnie Web 3.0, Coinbase, Ethereum Foundation eccetera. Ricordo che Web 3.0 e’ il mondo blockchain.
Stefano Gatti
Posso aggiungerti questo concetto, l’altra cosa che io vedo nell’evoluzione di tutti quegli strumenti che si sono evoluti attorno al mondo blockchain nel pagamento AP2 e’ anche, se ci pensate, quando tu fai, diceva Paolo, “voglio farmi comprare il biglietto per il concerto di Manchester degli Oasis piu’ economico possibile”, questa cosa puo’ essere vista anche come uno smart contract che tu fai con l’agente. Per regolare questi ambiti devi regolare in maniera molto deterministica.
Cioe’ biglietto Manchester Oasis sotto i 90 euro, faccio un esempio, ok? Per un biglietto. Ora, tutto questo va scritto in maniera deterministica per essere sicuri che in caso di errore dell’agente sara’ qualcuno che risponde e non sara’ l’utilizzatore. Questo e’ un tipico caso delle dispute che si hanno gia’ oggi nel mondo dei pagamenti. La cosa che mi chiedo e’ se sia necessario scomodare gli smart contract.
Stefano Maestri
AP2 e’ di fatto un protocollo che stabilisce con firme crittografiche quello che dici tu ma off chain, senza smart contract.
Stefano Gatti
Ma off chain infatti. Alla fine uno si chiede, banalizzo: e’ necessaria la blockchain o un database normale? E’ un tema filosofico dove non voglio entrare.
Alessio Soldano
Se ti serve la cosa distribuita.
Stefano Maestri
O se ti serve l’untrusted. Il problema e’ l’untrusted. ERC 8004 insiste molto sul discorso untrusted, perche’ chiaramente se sei tra soggetti trusted, cioe’ che in qualche modo si fidano tra loro, da una parte hai Amazon, dall’altra hai Nexi per i pagamenti e di qua c’e’ l’utente che ha messo la firma e ha in mano la carta di credito a cui viene magari fatto il blocco del credito prima di iniziare tutto il cinema, siamo tutti tranquilli. Nel momento in cui c’e’ qualcuno che invece e’ untrusted all’interno di questa cosa qui, allora ti serve un trust esterno e la blockchain fa quella cosa li’. Per cui tra agenti tra loro potrebbe avere una sua applicabilita’ untrusted.
Stefano Gatti
Si’, il tema pero’ secondo me che vorrei sottolineare e’ che alla fine, parlando di fiducia per determinare se questa cosa avra’ un successo o meno, la fiducia deve averla la persona umana che fa l’investimento, che fa l’acquisto. Bisogna capire se chi fa l’acquisto, cioe’ la persona, si fida di questo meccanismo.
Stefano Maestri
Su transazioni grosse sono d’accordo, su microtransazioni tra gli agenti, nel momento in cui tu sviluppi il tuo livello di trust e’ caricare 10 dollari su questo gruppo di agenti. E vabbe’, al limite li perdo quei 10 dollari, quello e’ il ragionamento che fai quando compri delle piaie alla fine. E’ un livello di trust diverso. Pero’ ribadisco, per me e’ interessante vedere quanto fermento ci sia e quanto Big Tech creda forte in un’economia degli agenti. Poi non e’ domani, forse neanche dopo domani, ma se ci credono tutti cosi’ forte c’e’ alta possibilita’ che si realizzi. Tutto qua.
Paolo Antinori
Scusatemi, per rafforzare uno dei temi che stava dicendo Stefano, perche’ ho sentito qualcun altro sottolineare questo aspetto in qualche podcast. In particolare loro lo ponevano dal punto di vista della differenza della fiducia nei confronti di questo meccanismo da parte di due attori principali. Una e’ quella degli utenti finali e l’altra e’ quella dell’industria che ci sta dietro, quindi dei venditori, le banche, chi ci deve credere. Perche’, come qualcuno giustamente sottolineava, all’utente finale non gliene frega niente di tutta sta roba: l’utente finale vuole che il suo amico gli dica “ho comprato la roba su Temu e mi e’ arrivata”, “ti arriva, ok”. Poi se quei soldi li hanno fotocopiati, cioe’ a lui interessa che il servizio finale sia di altissimo livello.
Laddove invece per tutti gli altri attori coinvolti, le banche, gli shop, loro interessa “io non voglio perdere soldi, voglio che qualcuno mi garantisca che se uso una carta di credito falsa me li ridanno”. Tutti questi aspetti qua. Quindi in realta’ si sottolineava come le prossime mosse interessanti per capire se questa cosa si stabilizza non sono tanto sul “se gli utenti ti cliccano sul pulsante sul sito” — quello arrivera’ a un certo punto — ma su tutto quello che c’e’ sotto: siamo riusciti a convincere le persone che ci devono investire in questa cosa, che si puo’ tenere in piedi oppure no?
Stefano Maestri
Al momento su blockchain no. La risposta e’ no, non abbiamo convinto piu’ di tanto le persone che devono investire. Bisogna vedere, ma tutto sommato io credo non ci sia ancora stato davvero il caso applicativo del micro payment untrusted. Se un’economia degli agenti porta a questa cosa io non lo so, e’ possibile, ha una possibilita’ di avere un’economia untrusted micro payment, poi vediamo.
[50:10] Veo 3 come foundation model: ragionamento visuale zero-shot
Stefano Maestri
Cambiamo totalmente argomento, perche’ e’ una delle cose di cui piu’ mi sono arrivati commenti privati, invito a farli pubblici. Dell’ultima volta e’ tutto il ragionamento che abbiamo fatto sulla robotica, VLA e compagnia bella. Vorrei in parte tornare su quello e su qualcos’altro di cui abbiamo parlato in passato, per una ricerca molto interessante di Google DeepMind, ma a livello di paper di ricerca, che si chiama “Video language model is zero-shot reasoning and learning”. Che cosa vuol dire questa roba qua? Passettino indietro.
Quelle sono le capacita’ zero-shot dei modelli di intelligenza artificiale. Per semplificarla un po’ e spiegarla facilmente, sono le capacita’ cosiddette emergenti, cioe’ quelle per cui io non ho insegnato al modello a fare qualcosa, ma lui dimostra di saperlo fare. Un classico esempio negli LLM, ChatGPT 3 e li’ attorno: io gli ho insegnato a dire la prossima parola, ma promptati nel modo giusto e con un reinforcement learning human feedback giusto, sono in grado di rispondere a delle domande. Questa e’ di fatto la capacita’ emergente che ha avviato tutto questo circo.
Quindi gli zero-shot sono capacita’ emergenti, e loro sono andati a fare uno studio di quali sono le capacita’ emergenti di un modello di generazione video. Intanto che io apro il sito, magari Ale vuoi ricordare rapidamente come un modello di generazione video, che assomiglia molto a quello di generazione immagine ma frame per frame, funziona? E’ diverso dagli LLM, la stable diffusion.
Alessio Soldano
Guarda io credo che nel tempo che tu apri il video la gente puo’ mettere in pausa e andare a rivedere un filmato di alcuni episodi passati, che e’ molto piu’ facile.
Stefano Maestri
Ok, ho gia’ fatto. Allora, capacita’ emergenti di questi modelli, loro hanno diviso in quattro categorie principali: perception, modeling, manipulation, reasoning. Sono tutti estremamente interessanti, perche’ questi modelli sono stati trainati per creare video il piu’ possibile realistici. Ma in realta’ hanno provato a promptarli in modo tale da raggiungere risultati diversi.
Hanno visto un primo livello che e’ quello di perception. Questo significa che il modello e’ capace di percepire, data un’immagine, di saper riconoscerne un punto focale, i contorni di un’immagine, segmentare l’immagine, quindi tirar fuori solo alcuni elementi, ritrovare il key point, eccetera. Voi direte: ci sono gia’ modelli che fanno queste cose, le fanno molto bene. Vero, ma questi modelli non erano trainati per fare quello. Esattamente quello che e’ successo con i GPT.
Capacita’ emergenti che suggeriscono, la ricerca stessa lo dice, che un modello video avanzato come Veo 3, che e’ stato usato per questi esperimenti, possa diventare un foundation model per la visione. Questo cambia tanto. Poi c’e’ la parte di modeling, in cui il modello ha dimostrato sempre zero-shot di sapere come cade un elemento, quello che loro chiamano fisica intuitiva, che ovviamente non e’ la fisica che da’ le formule ed e’ estremamente precisa, ma e’ in grado di prevedere che cosa succedera’ a un certo tipo di oggetti.
E’ quanto basta, in realta’, per quella che loro nominano un paio di volte nella ricerca, ad esempio il galleggiamento, mentre invece la sfera pesante va a fondo. Questo e’ quanto basta per quello che e’ il loro obiettivo alla fine, che e’ la robotica. Perche’ poi c’e’ tutta la parte di manipolazione, che vuol dire ad esempio togliere lo sfondo. Fino a qua, ok. Ma questo qui che vi faccio vedere, l’outpainting, cioe’ immaginare che cosa c’e’ intorno a un’immagine statica: se lo pensate su un robot, e’ tanta tanta roba. Vuol dire che il robot che sta vedendo la vostra stanza con un campo di 90 gradi puo’, sulla base della sua esperienza video, immaginare che cosa ci puo’ essere intorno.
E qui arriviamo all’ultimo punto, quello del planning o reasoning. Vediamo questo che e’ quello secondo me piu’ interessante. Questa cosa qui e’ stata fatta con un ragionamento visuale.
Alessio Soldano
Spieghiamo per chi non vede il video: c’e’ una sorta di labirinto con un topolino che parte da un angolo del labirinto e va diretto verso il punto dove c’e’ il formaggio, scegliendo le varie strade giuste senza sbagliarsi.
Stefano Maestri
Questa cosa e’ stata fatta con un ragionamento visuale, cioe’ basato solo sulle immagini. Non c’e’ stato un prompt che gli spiegava come fare un labirinto. Voi direte: vabbe’, ma posso farlo spiegandoglielo? Vero, ma voi se e quando avrete un robot in casa e gli dite “vai in bagno e cambia la carta igienica”, vi aspettate che lui si pianifichi il percorso per andare in bagno rispetto a quello che vede e non che voi gli dobbiate dire “gira a destra, gira a sinistra, c’e’ un ostacolo” eccetera. Voi vorrete dare un comando semplice, vorrete che su quello che le telecamere vedono sia in grado di fare un ragionamento. Infatti loro lo chiamano Chain of Frame.
Ma quello piu’ interessante: vedete, ci sono due oggetti e Veo ha dimostrato di saper capire l’object affordance, quello che in inglese si chiama object affordance. Cioe’ noi costruiamo gli oggetti nel nostro spazio in modo che abbiano una certa forma, perche’ possono essere usati per fare certe cose. Il classico esempio e’ la maniglia della porta. Se voi vedete una porta che non avete mai visto in vita vostra, e’ una maniglia pure strana, ma capite che quella li’ e’ la maniglia e dovete tirarla giu’ per entrare e uscire. Poi delle volte non capite se dovete girare a destra o a sinistra, almeno io non lo capisco mai.
Alessio Soldano
Magari quando escono le maniglie nuove delle macchine devi studiare un attimo come funziona.
Stefano Maestri
Pero’ e’ una cosa che noi sulla base della nostra esperienza visuale capiamo. Se ci pensate, da pensare come ragionate quando pianificate qualcosa, spesso vi parlate in testa. Ma ci sono anche situazioni, tipo quella della maniglia, che vedete la cosa e fate un ragionamento istintivo, visuale. E quello che hanno provato a simulare e’ questo. Poi ci sono ancora un sacco di limiti, i risultati sono ottimi su dieci tentativi, sono pessimi sul tentativo singolo. Pero’ puo’ essere un foundation model per il ragionamento visuale, e inseriamo un nuovo livello di ragionamento che puo’ andare accanto a quello testuale e ci avviciniamo un pochettino di piu’ a quello che e’ il nostro modo di ragionare in qualche modo.
Pero’ il fatto che un modello pensato per generare video sia in grado di fare tutte queste cose qua zero-shot suggerisce, come e’ stato per i GPT, che possano essere dei foundation model che, fine-tunati o promptati bene, lo dicono anche nella ricerca, che come vengono scritti i prompt e’ significativo, loro sospettano di essere arrivati a un 40 per cento di quello che Veo puo’ fare, perche’ non sanno come scrivere bene il prompt, visto che non e’ stato pensato per far quello. Pero’ e’ assolutamente interessante. Fanno anche un paragone di quanto Veo 3 sia piu’ bravo di Veo 2 a fare quelle cose li’, e la linea del trend e’ impressionante. Che non puo’ che portarci a Sora 2. Se avete commenti, pero’, prima su questa cosa. Per me e’ fondamentale nel mondo della robotica, perche’ avere un foundation model per la parte di vision e’ un pezzo che manca per quella cosa li’.
Alessio Soldano
Una cosa che noto io: se vuoi ci stiamo girando attorno da vari punti. L’altra volta parlavamo dei modelli video reasoning, poi un’altra volta abbiamo parlato dei world model. Alla fine stiamo convergendo a questa cosa da piu’ punti, vedremo con quale tecnologia specifica ci arriviamo, pero’ qual e’ la direzione.
Stefano Maestri
Si’, infatti loro parlano di world model anche nella ricerca, quando Veo 3 di fatto si costruisce un modello interno, un world model, perche’ nel momento in cui gli dicono “immagina cosa c’e’ intorno a questo uccello”, siamo molto vicini a quello che fa un world model. Pero’ si’, stiamo convergendo, concordo.
[1:02:36] World model e robotica: il data gap di 100.000 anni
Stefano Gatti
Io avevo due osservazioni, se posso, molto veloci. Una e’ che sono molto positivo sul fatto che, vedendo anche gli investimenti che vengono fatti sulla robotica in generale, anche se in misura minore rispetto alle AI, cioe’ la robotica siamo comunque su un ordine di grandezza inferiore a livello di startup e di VC, un decimo o anche meno. Detto questo, credo che ormai siano tutti convinti, almeno nella costa est americana, che la robotica sara’ la nuova AI, intesa come trend.
Detto questo, sono del parere che difficilmente ci sara’ un AI moment come abbiamo avuto con OpenAI, sara’ molto piu’ graduale. Ci sono pero’ studiosi come Ken Goldberg di Berkeley, ma anche studiosi di ETH, e ho letto diversi articoli che dicono che invece siamo molto piu’ lontani di quello che si potrebbe pensare su un’applicazione veramente industriale della robotica. Lo riassumono dicendo: abbiamo un problema di 100.000 anni di data gap. Quello che dicono e’ che e’ stato molto piu’ semplice addestrare l’AI su dati testuali, mentre sulla robotica il problema dell’addestramento e dei dati a disposizione e’ molto molto piu’ complesso. Quindi soffriamo molto sul fuoco.
Attenzione, ci stiamo sbagliando, e portano anche come esempio alcune cose. La guida autonoma per cui si prediceva che nel 2020 tutte le macchine sarebbero state autonome, in realta’ siamo ancora molto lontani, io dico nel mondo reale. Questa cosa, dicono, ha un problema ancora di grandezza superiore. Per cui, vero, secondo me nel mondo industriale progressi necessari e importanti ci saranno, sono un po’ piu’ scettico sul tema che fra 10 anni avremo un robot tuttofare in mano.
Stefano Maestri
No, non il robot come lo immaginiamo. Io sentivo proprio un’intervista, adesso non ricordo la persona, di una persona che fa ricerca sul mondo robotico. Lui parlava di scopo, cioe’ dipende molto dove mettiamo lo scopo. Sostiene che siamo piu’ nel momento del machine learning che in quello del GPT, quindi non nel generativo. Lui faceva questo esempio, se vuoi sciocco, ma che rende l’idea: tra un anno potremmo avere un braccio robotico che prende i piatti dal lavandino e te li mette nella lavastoviglie, ma non un robot umanoide che fa quello e tutto il resto anche.
Quindi dipende: se limiti lo scopo ci siamo gia’. Riesci a insegnarli anche con una videocamera o serie di videocamere a riconoscere i piatti, dove vanno, eccetera, in uno scopo estremamente limitato. Se ci sara’ un GPT moment e’ difficile al momento da dire. Concordo con te che mancano molto i dati. Infatti tutti spingono molto su questa cosa qua dei Veo 3 e dei world model anche per generare dati sintetici con cui istruire le cose. E i vari indossabili che piano piano le varie aziende stanno spingendo. Tra l’altro Apple questa settimana ha detto che molla i visori per gli occhiali, anche lei, per raccogliere dati dal mondo reale. Punto numero uno e’ che quelle telecamere li raccoglieranno dati tanto quanto il braccialetto di Zuckerberg di come muoviamo le mani. Al di la’ dei gesture, di come muoviamo le mani in associazione a certe cose, e quindi raccolta di dati ricchi per la robotica. Questa e’ la mia personale convinzione di cosa osservi veramente quel braccialetto li’.
[1:07:46] Sora 2: cameo, watermarking e deep fake
Stefano Maestri
Pero’ sulla roba dei video mostro anche, perche’ non si puo’ non dirlo, altrimenti ci saltano subito addosso che ci siamo persi la notizia della settimana, che OpenAI ha rilasciato Sora 2. Qua vediamo il faccione di Sam Altman inserito in un mondo virtuale.
Alessio Soldano
Sara’ Sora 2.
Stefano Maestri
Quello che loro hanno presentato e’ effettivamente stato dell’arte, meglio di Veo, soprattutto per il fatto che integra persone reali in un video generato. Prima abbiamo visto Altman, e’ il ricercatore di OpenAI che ha fatto il principale sulla parte Sora. Hanno rilasciato un’app in cui farsi dei video selfie da inserire in video generati. Questo e’ un passo ulteriore.
Alessio Soldano
Infatti questo apre tutta una serie di problematiche gia’ in parte toccate da Google quando ha iniziato a consentire di utilizzare la generazione nelle loro applicazioni. “Si’, va bene facciamoci cameo di noi stessi pero’ dobbiamo tenere sotto controllo la diffusione di questi filmati per evitare tutti i problemi e i rischi connessi”, e quindi nella news iniziavano anche a spiegare esattamente tutte le protezioni e le cautele che metteranno in piedi per questa applicazione.
Stefano Maestri
Si’, perche’ il deep fake e’ veramente dietro l’angolo.
Alessio Soldano
Assolutamente.
Stefano Maestri
Questo Sam Altman che guarda Mel Gibson di Pateri Giganti sembra.
Alessio Soldano
Da un punto di vista tecnico dicono anche che ci sara’ watermarking fatto bene su questi filmati. Sono curioso di vedere come e quale. Speriamo che sia disponibile anche per noi per capire.
Stefano Maestri
Si’, resta la curiosita’. Al momento in Europa non e’ disponibile, da quello che ho capito, rilascio progressivo come sempre. Comunque l’app, da quello che ho capito, e’ soltanto Apple al momento, che ci dice anche di nuovo quanto ci sia un legame con il mondo Apple dopo Johnny Ive e compagnia bella.
[1:10:11] Il buon gusto nell’ingegneria del software
Stefano Maestri
Abbiamo ancora qualcosa che vogliamo raccontare, forse c’e’ qualcosa sull’AI e il codice. Siamo lunghi ma raccontaci qualcosa.
Alessio Soldano
Ma parzialmente tangente, c’era un articolo del quale abbiamo discusso un pochino con Stefano su che cos’e’ il buon gusto nell’ingegneria del software. In questo articolo si parlava di come spesso, quando si va a sviluppare del software per un determinato progetto, non ci sia una soluzione che e’ giusta per definizione e tutte le altre sono sbagliate per ottenere un determinato risultato. Ci sono tutta una serie di scelte che gli sviluppatori fanno e queste scelte possono essere giuste o sbagliate, ma magari in generale sono tutte giuste. Pero’ si deve cercare di prediligere determinati aspetti a seconda dell’obiettivo del progetto in cui si sta operando.
Ci sono dei compromessi da fare tra l’usabilita’ piuttosto che le performance piuttosto che la leggibilita’ del codice. Il buon gusto, se vuoi, dello sviluppatore senior e’ quello di bilanciare lo sforzo nelle varie direzioni cosi’ che il risultato finale sia adeguato al tipo di progetto e allo scopo di cui ci si sta occupando.
Questa cosa e’ interessante perche’, se vogliamo, proprio questo lavoro dello sviluppatore senior e’ quello che si pensa la componente umana possa aggiungere al lavoro fatto da un’intelligenza artificiale che magari spacca il capello su tutta una serie di aspetti legati ad esempio alla performance del codice che viene scritto, la compattezza, che poi magari per dire non e’ ben leggibile, oppure esagera nel fare il software troppo leggibile e penalizza altri aspetti. L’utente esperto umano dovrebbe riuscire a dare il corretto bilanciamento cosi’ che l’AI sia orientata e diretta a produrre quello che veramente serve.
[1:12:31] Sonnet 4.5 e la corsa ai modelli economici
Stefano Maestri
Sullo spaccare il capello in 4, per chiudere, ricordiamo tutti che e’ uscito Sonnet 4.5, cioe’ la nuova versione di Claude che a codificare e’ ancora meglio del Claude precedente, ribattendo di nuovo anche nei benchmark OpenAI Codex. Ma al di la’ dei benchmark io trovavo gia’ meglio il 4, figuriamoci il 4.5. Pero’ su questo thread interessante e’ che loro sono usciti con Sonnet 4.5, non con Opus. C’e’ una tendenza ad andare nei modelli piccoli, come ha fatto Gemini che e’ uscita con il nuovo Flash, che leggevo che nei benchmark pareggia O3 di OpenAI a un sesto del costo. Quindi la tendenza e’ quella di diventare sempre piu’ economici per ogni motivo. C’e’ tutto questo trend.
Alessio Soldano
Piccolo. Giusto come reminder, piccolo nel senso non spropositatamente gigante, stiamo comunque parlando di modelli sufficientemente grossi da non essere eseguibili in locale su hardware consumer.
Stefano Maestri
250 milioni, un numero cosi’. 250 miliardi di parametri. Vabbe’, direi che possiamo chiudere qui, ringraziando Stefano per essere venuto a trovarci e per aver portato cosi’ tanti contributi. Mi raccomando, stelle e campanelline, iscrivetevi al canale, cliccate dappertutto, ditelo a parenti e amici, commentate. Se siete arrivati…
Alessio Soldano
Commentate.
Paolo Antinori
Ditelo ai vostri modelli LLM.
Stefano Maestri
Se siete arrivati fino qua ad ascoltare che facciamo le marchette, vi ringraziamo e vi diamo appuntamento la prossima settimana. Ciao ciao ciao.
Alessio Soldano
Grazie a te Stefano, ciao ciao!
Paolo Antinori
Grazie.
[1:14:25] Bonus: open hardware, open source AI e intelligenza ibrida
Paolo Antinori
Stefano, ho un’altra domanda per te. Riguarda una cosa che hai detto prima che era molto interessante, di come l’evoluzione tecnologica e di mercato di solito passa per delle tappe fisse: la prima quella dell’hardware e la seconda quella del software. Mi chiedevo se in realta’ questo modello andrebbe specializzato ulteriormente, laddove nel mondo del software c’e’ una sottospecializzazione del software che e’ il software open source, che per sua natura permette a dei player di entrare nello spazio senza degli investimenti di capitale iniziali. Magari nel mondo dell’hardware manca questo aspetto dell’open hardware, o magari arriveranno? Non so, tu che opinioni hai in tal senso?
Stefano Gatti
Sul mondo dell’hardware non ho una esperienza sufficiente per dare una risposta. Credo che abbia un valore, credo che la fisicita’ dell’hardware renda ulteriormente piu’ complesso il tema dell’open hardware. Sul mondo invece dell’open source che io ho visto, essendo come dicevo diversamente giovane nel mondo del software, c’e’ stata una dinamica importante di rincorsa dell’open source e di sdoganamento graduale nel mondo del corporate, per cui oggi l’open source ha un suo spazio anche spesso volentieri molto piu’ ampio del closed source.
Sul mondo delle AI il concetto di open source e’ molto piu’ intricato, tant’e’ che ci sono delle definizioni molto piu’ complesse, perche’ lo penso, adesso la banalizzo, scrivere software molto meglio di noi, pero’ alla fine non penso essere relativamente semplice, deterministico. Software aperto di cui tu hai i codici, puoi fare evoluzioni, ci sono i vari tipi di licenze, pero’ e’ molto deterministico.
Invece sul tema dell’AI c’e’ un tema molto molto complesso, che e’ stato normato relativamente da, se non sbaglio, OSI dando delle definizioni, ma ci sono degli ambiti molto verticali. Cioe’ si parla, non e’ solo software, il software e’ una componente ma direi non cosi’ importante. C’e’ il tema dei pesi: molte volte si dice un modello open source ma non ci sono i pesi, e gia’ e’ un altro tema. L’altro tema che secondo me e’ molto sottovalutato, che e’ molto importante, e’ il tema dei dati su cui sono stati addestrati, che e’ un tema rilevantissimo e che si tende a banalizzare.
Faccio un caso molto semplice. Ci sono diverse universita’, diverse organizzazioni che danno una classifica in tempo reale di quanto sono aperti i modelli che sono considerati open source, a seconda di questi vari attributi. Tornando a noi, facendo un esempio concreto, Llama, cioe’ il modello di Meta, e’ aperto come software e se non sbaglio aperto come pesi, ma come dati si dice percentualmente quali sono le fonti dei dati su cui ha addestrato. Mi fa un po’ rigare questa cosa, nel senso che i dati su cui ha addestrato e’ qualcosa di estremamente rilevante. Esistono veramente pochi modelli open source fino al tema dei dati, in cui concettualmente ti fa vedere i dati su cui hai addestrato.
E’ un tema piu’ generale che c’era anche nel mondo dei primi LLM, perche’ e’ un modello di machine learning tradizionale: se devo predire il churn di un’azienda, cioe’ quali sono i clienti che perdero’ nei prossimi due mesi, e’ molto importante non solo il software ma i dati su cui lo addestro. L’efficacia, tutto il tema delle valutazioni con cui riesco a misurarla e’ funzione della tipologia dei dati che ho addestrato. Se uso adesso i dati dell’ultimo mese non ho la stessa accuratezza dei dati degli ultimi 4 anni. Quindi questa cosa e’ un tema rilevante.
Tornando a noi, c’e’ una differenza enorme quando si parla di open source. L’altra cosa, opinione personale, anch’io due anni fa pensavo che l’open source fosse li’ per andare vicino ai mondi closed source. Adesso, dopo due anni, sembra che invece paradossalmente il lag, cioe’ il ritardo, sia superiore. Cioe’ oggi l’esperienza che ho come utente a usare OpenAI o Anthropic come chat e’ decisamente superiore rispetto al modello che classifichiamo open source.
E questo arriva, poi chiudo la mia risposta, secondo me non tanto per un modello LLM, ma per un’esperienza che abbiamo che mi porta a dire che stiamo andando verso un’intelligenza artificiale che non e’ piu’ generativa, ma e’ ibrida. Cioe’ quando chiedo “quali saranno i prossimi clienti che posso perdere” a OpenAI, a un chatbot, premesso che e’ una domanda che secondo me non sarebbe da porre in questo contesto, ma nel momento in cui lo faccio e OpenAI ha i dati sufficienti, lui cosa fa? Scrive in Python un modello di machine learning per risolvere questo mio problema. Quindi non utilizza l’intelligenza generativa come la maggior parte delle persone pensano. C’e’ un passaggio: usa l’intelligenza generativa per scrivere codice, il codice risolve la mia domanda e poi mi risponde. Quindi e’ un’intelligenza ibrida.
Questo lo fa anche banalmente quando, perche’ sono migliorati come dicevo all’inizio, gli dicevi 2 piu’ 2 fa 5, parlo del 2022, oggi 2 piu’ 2 fa 4, ma non perche’ sia tanto migliorato, e’ migliorato anche l’LLM ma quanto perche’ ha capito di utilizzare un banale scriptino Python per rispondere in maniera deterministica. Quindi oggi l’esperienza che noi abbiamo soprattutto dei modelli closed source e’ un’esperienza ibrida che va oltre l’LLM ed e’ un’intelligenza che io ormai sono assolutamente convinto che non dobbiamo piu’ chiamare generativa ma ibrida.
Alessio Soldano
Ma anche perche’ non e’ piu’ solo un modello, cioe’ sono sostanzialmente degli agenti.
Stefano Gatti
Esatto.
Stefano Maestri
Si’, esatto. C’e’ tanta roba nella parte davanti, diciamo.
Stefano Gatti
Poi c’e’ stato il reasoning, attenzione, c’e’ stato il reasoning e gli strumenti che hanno creato poi tutto il tema degli agenti. Anche qua potremmo dire cosa e’ un agente, cosa non un agente, secondo me non c’e’ una definizione chiara assolutamente. Per me l’agente e’ qualcosa che fa di tutto in maniera autonoma, ma bisogna andare a vedere questo “tutto” cosa vuol dire. Per me l’agente e’ qualcosa che ha anche a che vedere con l’agency, col termine americano di “agency”: si prende la responsabilita’ di fare qualcosa. E qua si apre un dibattito enorme in termini piu’ legali e filosofici.
Per il resto, tutto quello che secondo me, Alessio, tu chiami agente, per me e’ intelligenza artificiale ibrida. Cioe’ qualcosa che utilizza generativa, strumenti tradizionali super utili che c’erano anche dieci anni fa, e il reasoning, che e’ qualcosa che invece ha un modo di usare l’intelligenza generativa che e’ diverso, e’ quasi, lasciatemi dire un termine, architetturale.
Stefano Maestri
Sicuramente cosi’. Poi sul termine agenti e’ difficile mettersi d’accordo. Da un punto di vista tecnico, tecnologico, ha una definizione, se vuoi, un pochettino piu’ accettata sul ciclare, sul modello e sui tool. Ma sono d’accordo, non c’e’ un termine unico. E anche quando inserisci la collaborazione tra agenti, basta, non c’e’ piu’ nessuno d’accordo neanche con il suo amicino di casa. Pero’ vabbe’, fa parte del gioco. L’ultima cosa, chiudo: l’open hardware invece e’ fondamentale e io ce l’ho nell’armadio, ed e’ un braccettino robotico di Hugging Face che ci permettera’ di capire come fare la robotica per riagganciarci all’altro discorso.
Stefano Gatti
In realta’ il primo esempio, io sono appassionato piu’ di coding. Come Stefano sa, abbiamo fatto a livello nella mia citta’ CoderDojo e abbiamo utilizzato anche dell’open hardware. Ma scusa, no, il primo esempio di base, di open hardware italiano, e’ Arduino. Se volete, non e’ stato il primo esempio in assoluto, ma su larga scala Arduino e’ effettivamente aperto, secondo me sia nel mondo industriale ma anche soprattutto nel mondo della didattica, di come si insegna i primi rudimenti di robotica. Arduino e’ un esempio molto interessante.
Paolo Antinori
Si’, assolutamente. Grazie Stefano per il punto di vista.
Stefano Maestri
Grazie.