L’AI tra GPT 5.2, benchmark, API, occhiali smart, cucina robotica e futuro della guida autonoma #30
👉 Ascolta su Spotify
👉 Guarda su YouTube
👉 Segui su LinkedIn
Trascrizione: Puntata 30
[00:00] GPT 5.2, Open Router e Teaser
Stefano Maestri
Beh, non possiamo che partire dalla fine. Partiamo da ieri sera. GPT 5.2, no?
Alessio Soldano
GPT 5.2, sì, che è come Capodanno, eh.
Stefano Maestri
E comunque prima di fare uscire il nuovo modello, sapendo che lo pubblicizzerò con questo benchmark, sistemo il modello affinché vada bene con questo benchmark e dal giro dopo lo fanno tutti…
Paolo Antinori
…e quindi niente e quindi la fine della mia storia è che sono passato a Open Router alla fine.
Stefano Maestri
Sì, ci sono dei modelli Llama perché faceva la battuta su Llama 4…
Paolo Antinori
…però c’è un perché, quello è il regalo di Natale per Zuckerberg, sai che a lei gli piace stavo questo.
Stefano Maestri
Invece un uso concreto da Gen Z delle AI, quando dico che magari i giovani che ci sono nati o che ci stanno crescendo hanno pensieri un po’ laterali rispetto all’uso che ne facciamo noi. Google ha annunciato che nel 2026 lanciano gli occhiali anche loro. Hanno detto: “Non li facciamo noi, noi facciamo la parte software e il modello che siamo capaci a farli. L’hardware lo fa Samsung basato su Android XR, la nuova versione di Android Augmented Reality e gli occhiali li fa Warby Parker”.
Paolo Antinori
Spegniamo prima, non spegniamo prima, chi lo sa?
Stefano Maestri
E mia moglie mi fa: “Prova a chiedere a Gemini che cosa ne pensa”.
Alessio Soldano
Attualmente fanno tipo 450.000 viaggi per settimana. Vabbè, ricordiamolo, Waymo sono macchine a guida autonoma.
Stefano Maestri
L’ultima cosa che abbiamo in scaletta, che sono un paio di ricerche, tre in realtà, molto verticali sul mondo dei modelli. Adesso negli ultimi 3 minuti mi sono perso anche l’altro nerd che ascoltava e ci sono solo io che ascolto, quindi saluto me stesso. Il me stesso.
[02:28] Intro e Analisi GPT 5.2
Stefano Maestri
Buongiorno. Buongiorno a tutte e tutti e eccoci di nuovo con la puntata del sabato. Ciao.
Paolo Antinori
Ciao Paolo. Ciao Alessio. Ciao. Ciao, scusa, mi sono confuso sul sabato. Ok, certo. Una puntata del sabato.
Stefano Maestri
Quindi da dove partiamo? Non possiamo che partire dalla fine, partiamo da ieri sera. GPT 5.2, no? GPT 5.2, sì, che è come Capodanno… non so, è l’inizio del red code o code red, come cavolo l’ha chiamato Altman. Sapete che sostanzialmente ha fatto un comunicato interno di cui è subito arrivato il leak, probabilmente rivisto da lui prima che facessero il leak, in cui ha detto “Attenzione, attenzione che Gemini ci sta mettendo il pepe al culo.” Adesso sintetizzando fortemente quello che c’era scritto lì, e quindi diamoci una mossa, facciamo qualcosa di rilevante, di impattante, di incredibile, di bellissimo, come soltanto OpenAI sa fare. Allora, e hanno rilasciato GPT 5.2. È questa cosa bellissima come solo OpenAI sa fare? Boh, nel senso che è uscita ieri e non ho neanche capito se a me l’hanno già messa sull’account perché non si capisce più che modello usi, quindi immagino di sì, però non c’è più scritto esplicitamente.
Alessio Soldano
Forse sì.
Stefano Maestri
Benchmark. Benchmark importanti, indubbiamente benchmark importanti, con tutto che ne abbiamo parlato con Alberto qualche puntata fa di benchmark affidabili, non affidabili, bla bla bla, però i benchmark sono importanti. In particolare uno che è quello che loro hanno cominciato a mettere da Chat GPT 5, che fanno… non ho capito se anche altri lo fanno, ma credo di sì, però è quello che si chiama GDP-Eval. Che cos’è sto benchmark? Questo benchmark è interessante perché invece di avere puzzle, diciamo puzzle di matematica, puzzle di programmazione, cose così, misura o cerca di misurare cose che abbiano un impatto reale di business. Quindi capacità di scrivere mail lunghe, riassunti, fare grafici, oppure delle sintesi di business, analizzare gli andamenti di borsa. C’è dentro lì c’è dentro un po’ di questa roba qua.
Alessio Soldano
Sì, mi sembra di aver letto che sono tipo una quarantina di use case reali nel mondo finance ed economico.
Stefano Maestri
Esatto. È tutto finance ed economia. Non c’è altro perché loro dicono c’era già tanto altro sul coding, c’era già tanto altro su matematica e testo, ci voleva qualcosa di diverso e quindi hanno inserito questo benchmark qua che è appunto nel mondo finance e come dicono loro… che stravince, insomma.
Alessio Soldano
Sbaraglia la concorrenza.
Stefano Maestri
Sì, sì, che ti tradurrei sigaretta e braccio fuori, insomma, sorpasso così. Nel senso che rispetto a GPT 5.1 che faceva un po’ meno del 39%, questo fa quasi il 71%. Allora faccio lo scettico, non voglio… lo dico prima così non faccio un attimo lo scettico. È un trend questo qua però di modelli nuovi che escono, che sbaragliano i benchmark nuovi che abbiamo già visto succedere tante volte. Cioè, arriva il benchmark nuovo di Zecca, il primo modello che lo prova fa un 35-40%, quelli dopo super. E poi dopo invece ci si stabilizza un po’ di più. Io non voglio fare il malizioso e dire che i dati dei benchmark sono stati usati nel training, perché magari no, però sicuramente se io fossi uno dei ricercatori che fa il training del modello e vedo questo benchmark nuovo, quantomeno lo guardo cosa c’è dentro e mi faccio ispirare o no?
Alessio Soldano
Sì. Poi comunque prima di fare uscire il nuovo modello, sapendo che lo pubblicizzerò con questo benchmark, sistemo il modello affinché vada bene con questo benchmark e dal giro dopo lo fanno tutti e quindi ci si allinea.
Stefano Maestri
Allora, loro spergiurano di non fare questa cosa qua che dici tu, che era la cosa che ha detto “io non voglio fare il malizioso”, però almeno l’hanno visto prima, cioè non è un dato completamente nuovo, almeno per il ricercatore. Perché ricordiamo tutti che dato che entra, dato che esce e se quel tipo di modellazione di dati non era mai venuta in mente a nessuno prima, forse non è stato insegnato così. Che tra l’altro apre tutta una serie di considerazioni se volete sui Transformer, perché stiamo dicendo che sono dei pappagalli bravissimi, mascherati, ma bravissimi, però pur sempre dei pappagalli. Non è una novità per gli addetti ai lavori, però è anche un po’ per sfatare un attimino il mito del, se vuoi, dell’intelligenza vera e propria. In realtà replicano comportamenti che gli sono stati insegnati. Poi nell’uso reale, se i comportamenti che ci sono stati insegnati sono tanti e tali che ti permettono di avere un improvement sul tuo lavoro, anche chi se ne frega. Però d’altra parte non è… d’altra parte va sempre tenuta presente questa cosa qua. Cioè dipende che cosa gli viene insegnato, no?
Alessio Soldano
Appunto, anche senza entrare in malizia, è come dire che questo nuovo modello che è uscito è esperto, se vuoi, in quest’ambito qui, perché si è deciso di spingere di più su questa parte della conoscenza, questa parte delle capacità di analizzare questo tipo di informazioni e i prossimi probabilmente faranno la stessa cosa.
Stefano Maestri
Sì, sì. Beh, se la vogliamo vedere positiva è che non scende negli altri benchmark.
Alessio Soldano
No, infatti. Ma alla fine è un po’ come se pensiamo al mondo del software, come dire: vabbè, abbiamo questi test che sono i benchmark, che tutti fanno girare prima di rilasciare il loro software, che sarebbe il modello, e per non far brutta figura si accertano di aver sistemato tutto il software per benino, affinché i test diano dei risultati almeno comparabili a quelli del giro prima. Nuovo benchmark, nuovi test. Loro molto probabilmente li hanno fatti girare prima di uscire e gli altri no, perché non sapevano ancora che c’era questo benchmark. La prossima volta, prima di uscire, anche loro faranno le loro belle verifiche.
Stefano Maestri
Sì, sì. E indubbiamente qui la difficoltà, lo spieghiamo un attimo per gli ascoltatori, è che essendo nell’indeterminismo il rischio è che la coperta sia un po’ corta, no? Cioè tu tiri per migliorare un aspetto del modello e cala dall’altra parte. La sfida è quella di riuscire a strecciare questa coperta, di riuscire a coprire tutti i casi e apparentemente solo guardando i benchmark sono riusciti a fare questa cosa. Poi prime impressioni lette su X: è bello, figo, funziona bene, dà dei risultati molto migliori di 5.1. Uno è mortalmente lento, questo letto su X. È vero che bisogna vedere perché magari sono in rollout e non era ancora deployato su tutte le GPU che hanno a disposizione perché lo stanno facendo gradualmente, quindi i primi giorni sono sempre da prendere un po’ con le pinze sulle performance. Però qualcuno dice non ci è dato sapere se perché così grande, nuovo eccetera o perché non… Qualcuno dice: è estremamente figo però vale la pena usarlo soltanto per cose che richiedono veramente un ragionamento lungo e profondo, che è lo stesso feedback che se leggete hanno dato quelli che stanno provando Gemini nella versione Deep Think. Perché oltre a Gemini 3, Gemini 3 è uscito per gli utenti super paganti, quelli da 250 dollari al mese.
Alessio Soldano
Sì, anche in versione Deep.
Stefano Maestri
Che è la stessa versione che è stata usata… cioè no, la stessa è la modalità che era stata messa su Gemini 2.5 ufficialmente, ma forse era già il 3, per vincere le Olimpiadi di matematica. È quella versione capace di pensare in maniera più profonda. E anche lì dicono bello, figo, fa delle cose incredibili, ancor più di Gemini 3, ma è molto più lento e ci sta Deep Think, cioè penso a lungo. E quindi questo è un po’ il discorso.
Paolo Antinori
Perché un po’ la storia di appena era uscito Chat GPT 4, no? Che era lento e ti suggerivano loro di stare attento di usarlo per quello che serviva e non per qualunque cavolata.
[13:36] State of Enterprise AI e Costi Video (Sora/Veo)
Stefano Maestri
Eh sì, però questa roba qui dei 5.2, e cioè in particolare quel benchmark lì che abbiamo nominato, va a braccetto con tutta una tendenza che si rileva in queste settimane nel mondo OpenAI, al di là di code red, code lì come si cavolo l’ha chiamato Altman. C’è scritto anche un articolo nel loro blog che si chiama “State of Enterprise AI”, che sono 5 minuti di lettura che consiglio di farsi ed è il loro spaccato su come il mondo enterprise sta adottando l’intelligenza artificiale, nella fattispecie Chat GPT perché i dati che hanno loro evidentemente sono quelli. Allora, al di là che l’articolo in sé da leggere o almeno scorrersi, poi ripeto, sono 5 minuti di lettura, si può anche leggere tutto, è interessante che loro esprimano un focus sull’Enterprise perché hanno spinto tanto sul consumer. Ultimamente stanno dicendo attenzione però perché comincia a essere il momento di guardare a delle revenue perché alla fine di questo parliamo, anche dal mondo enterprise, e quindi c’è più attenzione a quello. E avevamo già visto più attenzione nella parte agenti, codex e tutte queste cose. Hanno inserito le chat di gruppo che anche quelle alla fine possono essere un giochino divertente tra amici, ma sono soprattutto per il mondo enterprise. Se tanto mi dà tanto, se arrivano a pubblicarlo vuol dire che un’analisi interna è stata fatta. Cominciano ad esprimere un interesse forte per il mondo enterprise che sembrava un pochino più appannaggio di Anthropic e Google. Loro stanno dicendo attenzione che anche a noi interessa, cioè non è che vogliamo lasciare sul piatto questa cosa qua, benché abbiano sempre detto fino ad oggi “a noi interessa di più il mondo consumer”. In realtà avevano pensato ad un social media, avevano fatto questa cosa qua di Sora in versione quasi social media. A proposito, avete visto che è sparito, non ne parla nessuno?
Alessio Soldano
Sì, non ne parla nessuno.
Stefano Maestri
Sora come è stato per Sora 1. Se vi ricordate Sora 1, il modello più incredibile. È uscito Veo. Accidenti è uscito Veo. Niente, Sora, ciao. Invece Sora 2… allora, i leak dicono una cosa diversa. I leak dicono che 20 secondi di video generato da Sora 2 costa $5.80 a OpenAI e l’avevano rilasciato in maniera social, tutti fate i video eccetera eccetera. Poi si sono accorti che nella prima settimana sono andati quei 5 billion e han detto “Aspetta un attimo che rallentiamo quell’attimino perché diventa difficilmente sostenibile questo oggetto qua”. Che ci sta, eh. E mi chiedo, non so se qualcuno di voi ha dei dati, va bene che Google ne ha da buttare, ma Veo e Nano Banana eccetera che costi avranno? Perché immagino non irrisori.
Alessio Soldano
Allora, io su Veo non lo so, se non se provi a usare Veo per dire… io uso Open Art, un servizio che fa tipo… cioè tu compri una subscription di un tot di euro al mese e poi puoi usare vari modelli con dei crediti. E la generazione di filmati con Veo è costosissima, cioè tipo 30-40 volte quello che ti costa usare i modelli cinesi. Però vabbè, non lo uso praticamente mai. Sulle immagini leggevo giusto credo ieri sera o stamattina, non ricordo, che quando è uscito qualche settimana fa Nano Banana Pro, in realtà il costo delle API per generare immagini con Nano Banana Pro è tipo quattro volte Nano Banana precedente. Quindi da 6-7 centesimi, no di meno, ad immagine con il vecchio Nano Banana a 13, 14, 15 con il nuovo. Che comunque 4x non è poco.
Stefano Maestri
Sì, sì, ma infatti anche per dire giusto ma a livello di quanto si fanno pagare loro…
Alessio Soldano
…e che immagino che per loro alla fine voglio dire energia, che tendo a vedere come proporzionale a quanto costa loro. Non credo che abbiano margini completamente differenti.
Stefano Maestri
Non piccolissimi i margini, secondo me, però come su tutto il cloud. Però vabbè, questa non ho insights, è un’opinione. Però è un discorso anche di sostenibilità alla fine, non so.
[18:57] API Google: Limiti e “Ban”
Paolo Antinori
Guarda, io contribuisco a questa conversazione non parlando dei modelli per immagini, ma di modelli base. Vi raccontavo che ho litigato con Google nel weekend perché stavo facendo il calendario dell’avvento degli agenti e a un certo punto ho smesso di funzionare perché avevo usato troppo API. Gli ho detto, “Vabbè, ok, non ho idea di quale sia il limite, devo avere sforato un pochettino.” Quindi ho portato pazienza, ho aspettato qualche giorno per vedere se si ristabiliva, non si è ristabilito niente. Allora mi sono stufato, ho detto “Cia, fammi guardare su internet cosa si dice.” Anzi no, scusate, ho fatto quello che fanno tutti. Ho creato un secondo account, ho detto “Beh, creo un altro account e mi faccio dare un’altra API”. Creo un nuovo account, faccio andare altri API e mi blocca lo stesso. Dico, “Eh, sono diventati così intelligenti che hanno capito chi sono io e quello che faccio?”, che è fattibilissimo.
Alessio Soldano
Ma del resto è Google, sa tutto di te, no?
Paolo Antinori
Del resto è Google, sa anche… Sì. E quindi ho detto “Magari sono arrivati a quello, ma mi sembra strano, cioè queste cose si possono fare ma nessuno quasi le fa”. Allora ho cercato su internet, anzi ho chiesto a Gemini stesso, ho detto “Oh, com’è che prima usavo e adesso cosa ti ho fatto? Perché non me la dai più praticamente?” E lui mi ha risposto e c’è un po’ di internet che si sta lamentando, in particolare in Europa, perché Google ha cambiato la quota del free tier, quindi della parte gratuita, e l’ha abbassata. Ho detto, vabbè, però l’ha abbassata, ok, cioè due o tre chiamate al giorno me le farai fare, no? Quando crei adesso… vi invito anche voi a farlo perché magari davvero bloccano solo Paolo e non gli altri. Quando create una nuova chiave, lui vi fa copiare il comando di prova in Curl per dire copialo, lancialo nella shell e vedi che ti funziona. Se lanci quello, istantaneamente ti esce un 429 in cui ti dà i rate limit e ti dice quota zero. Quindi non è che l’ho esaurita. Poi c’ha un messaggio confuso che ti dice tra 35 secondi ti si libera, ma non è vero, perché poi è hardcodato quel quota zero nell’altra parte del messaggio. E niente, hanno tagliato completamente la quota che è stato interpretato come un segno del loro stesso successo, non potevano più permettersi di regalare a destra e a sinistra l’accesso all’API e quindi niente… e quindi la fine della mia storia è che sono passato a Open Router alla fine.
[21:25] Open Router e Disponibilità Modelli
Stefano Maestri
Ecco, sì, che lo nominavamo l’altra volta, Open Router, lo ridiciamo per gli ascoltatori. È un servizio che vi permette di utilizzare diversi modelli attraverso l’API, sia modelli gratuiti che modelli a pagamento con qualche cosa particolare che se ci mettete almeno un po’ di soldini vi danno più accesso a quelli liberi anche più crediti a quelli liberi. Però è un servizio interessante per chi sta sviluppando cose con le API per provare senza dover fare l’abbonamento o mettere crediti su tutti i provider di modelli che voglio provare, ma provare diversi provider attraverso Open Router.
Alessio Soldano
Questo è un pattern che c’è in vari ambiti. Ad esempio, io prima citavo Open Art, se vuoi è più o meno lo stesso ragionamento per le immagini. La cosa carina è che tu così facendo ti becchi, diciamo, gli aggiornamenti dei modelli, cioè esce un nuovo modello, questi dopo un po’ lo attivano e quindi hai già le cose nuove che puoi provare e vedere come vanno, senza dover pensare a “no, vabbè, mi registro quest’altro” piuttosto che se posso farlo andare in locale, preparo il sistema per usarlo in locale così.
Stefano Maestri
E tra l’altro questo ci collega ad una cosa che io ho scritto in newsletter settimana scorsa. Ho messo il link al loro articolo, diciamo, di fine anno, che è un’analisi lunga, sono 40 minuti almeno a leggerla se la leggete tutta per bene. È una lunga analisi di come le API vengono utilizzate attraverso il loro servizio, ma avendo un numero elevato adesso di clienti ed avendo diversi modelli hanno un punto di vista privilegiato su questa cosa, quindi hanno molti dati e li rendono pubblici questi dati. Ed è interessante da leggere per chi fosse interessato a questa cosa qua. Adesso non ha senso andare nei dettagli qui nel podcast perché vabbè, son grafici, numeri, però se avete voglia di leggerlo trovate facilmente l’articolo, poi magari lo metto anche in descrizione e c’è comunque nella mia newsletter di settimana scorsa.
Paolo Antinori
Un altro motivo per cui quello che hai appena detto è interessante è anche perché la lista dei modelli nel catalogo di Open Router è bella lunga, ce ne saranno, non so se 50, 100, cioè quando inizi a leggerla ti stufi a un certo punto e dici “vabbè, ok, dammene uno perché non ho voglia di leggerlo.”
Stefano Maestri
Fai te. Sì, sì, sì, sì. Ci sono tutti gli state of the art, ci sono la maggior parte di quelli open. Per dire, c’è Mistral, tra gli europei, ci sono i vari DeepSeek, GLM, Yi tra i cinesi, e poi che altro? Poi ci sono i Llama, sempre non c’è il quattro di Llama, non si vede quello, però non piace, chissà. E poi ci sono tutti gli state of the art nelle varie versioni disponibili ancora in API, cioè tipo di GPT, c’è ancora il 4o visto. Per chi volesse provare cose più vecchie ha senso? Non ha senso oggi, ma non lo so questo…
Paolo Antinori
Scusami, a tal proposito, nel mio rant precedente contro… ovviamente irragionevole perché mi lamentavo che Google non mi dava più una cosa gratis, non era neanche così generosa la loro offerta, perché loro l’accesso che hanno tolto era quello a Gemini 2, non il 3 attuale. Quindi hanno deciso che l’hanno dismesso.
Stefano Maestri
Ma non è che l’hanno dismesso? Non è che semplicemente l’hanno dismesso nella versione free puoi accedere solo a 2.5, da 2.5 in avanti? Perché poco tempo fa l’hanno fatto con 1.5, lo so perché mi si sono rotti tutti i test di A2A.
Paolo Antinori
Allora, se così è, nessuno si è ricordato di cambiare il Curl che ti genera l’endpoint, perché l’endpoint dice il due. Io ho provato a tweakarlo, a passare da due a tre, l’ho fatto di sicuro, 2.5 non sono sicuro di aver provato, che poi comunque potrei non aver indovinato perché c’hanno dei suffissi e quindi potrei non aver saputo il segreto, però niente suggerisce quello e Reddit non suggeriva che fosse quello il punto, quindi se così è non ci sono capitato.
Stefano Maestri
No, no, era perché mi è successa questa cosa qui che a un certo punto non andavano più nessuno dei test a 2A perché non rispondeva più il modello e perché la libreria che usavamo usava 1.5 che era un modello molto vecchio.
Alessio Soldano
Quindi dirti rate limit zero era molto più semplice per loro che spiegarti che l’avevano tolto, no?
Stefano Maestri
In realtà probabilmente l’errore che beccavo io era più sensato. Parlante di rate limit zero. Adesso non me lo ricordo, è passato un po’ di tempo.
Paolo Antinori
A onore di Google c’è il link che ha scritto “vai a leggerti rate limiting” però è poi una pagina da documentazione tipica di Google in cui non si capisce comunque una mazza e devi dire “sì, ma quindi cioè me li dai o non me li dai?”. Non so se giocano sull’ambiguità o danno per scontato che si capisca. Non mi è chiaro.
[27:04] Leak su Meta e Wearable (Pebble)
Stefano Maestri
Può essere, può essere che giochino un po’ sull’ambiguità. Ma abbiamo parlato come prima dei modelli Llama perché faceva la battuta sul Llama 4, però c’è una notizia che non ho messo neanche in scaletta perché l’ho letta ieri sera, è questa che dice sostanzialmente che ci sono leak, ma credibile a questo punto, perché altrimenti non si capisce perché tutto l’investimento di Meta dei mesi scorsi… Sì, che vi ricordate, ha preso un sacco di ricercatori, un sacco di gente prendendola ad altre società, strapagandoli, facendo un’acquisizione importante, non mi viene il nome dell’azienda, ma sostanzialmente per prendere il loro CEO di questa azienda e farlo diventare il capo di tutta la parte AI. E comunque il leak per venire i giorni nostri è che loro stiano lavorando forte su un modello ma closed, cioè che abbiano abbandonato la filosofia Open che stava dietro a Llama, Llama Stack e tutto per tornare Closed Source e cercare di andare a fare revenue su quella cosa lì. Che se da un lato è ragionevole perché vogliono fare revenue, dall’altro deve essere proprio buono buono sto modello perché da un lato si sono fatti cattiva fama con l’uscita di Llama 4, dall’altro non sono riconosciuti per davvero, almeno nel mondo enterprise, come una big tech come le altre, ma più come quella dei social media o comunque della parte consumer. Più buttano via anche il fatto di essere relativamente open, andare sul modello proprietario si prendono un rischio… da un lato comprensibile, dall’altro è un bel rischio che si prendono. Però il leak dice che non è che non sono spariti e non è che sono con la coda tra le gambe a piangere se stessi su Llama 4, semplicemente hanno fatto altre scelte. Quali siano queste altre scelte è difficile da capire perché il livello di ricercatori che si sono portati in casa potrebbe pure essere qualcosa oltre i Transformer. Perché han preso gente di primissimissimo livello, magari meno in vista, magari non quelli che vanno a fare le interviste perché hanno fondato OpenAI 5 anni fa.
Alessio Soldano
Sì, che però sono ricercatori sul pezzo, diciamo.
Stefano Maestri
Ma gente veramente di primo livello, quindi boh, che cosa stiano facendo sono molto curioso. Se è quello che stan facendo, prima o poi dovranno scoprire le carte e quantomeno vendere qualcosa, perché altrimenti con tutti gli investimenti che han fatto, per quanto abbiano soldi pressoché infiniti, e prima o poi finiscono anche quelli pressoché infiniti, perché tra l’altro hanno comprato un’altra azienda anche questa settimana. Aspetta, com’è che si chiama? Beh, vediamo questa ce l’abbiamo da qualche parte negli appunti. “Acquire Limitless” che fa Augmented Reality.
Paolo Antinori
Eh, perché quello è il regalo di Natale per Zuckerberg, sai che a lei gli piace quella cosa lì, quindi ogni tanto gliene regalano una.
Stefano Maestri
Sì. Ah, no. Non fa augmented reality. Registra conversazioni che però sta dentro a tutto quel trend di registrare la voce costantemente per poi farne riassunti. Io sono tentatissimo qui, ho la pagina aperta, di ordinare un Pebble Index che voi non saprete che cos’è, ma è un coso fighissimo, un anello che vi faccio vedere la diapositiva.
Alessio Soldano
Stavo giusto dicendo, ma questa roba quindi gli serve per gli wearable delle registrazioni?
Stefano Maestri
Eh, io la interpreto così. Io ho trovato questo oggetto bellissimo, queste cose qua, insomma, dipende. Guardate che oggetto bello. Questo è un anello. È un anello che costa pochissimo che non ha… devi ricaricarlo perché è un dispositivo abbastanza stupido. Sostanzialmente un microfono che si collega al tuo cellulare e promette… è una startup, una di quelle cose che si ordinano, che non l’hanno ancora prodotto e quindi probabilmente non mi arriverà mai. Ma tu schiacci quel bottone lì e registri la tua voce, poi c’hai un modello locale al telefono, quindi non condividi con niente, che ti fa il riassunto di tutto quello che hai registrato durante la giornata, che se volete è un’applicazione piccola ma che ha un suo perché. Tutto sommato poi in Europa probabilmente se l’ordino mi arrestano. Il giorno dopo nel momento in cui io l’ho ordinato in Europa mi arrestano perché violo la privacy di tutti quelli intorno a me. Viene qua il garante della privacy con i mitra e mi portano via, non mi vedete più. Però boh, in teoria è ordinabile. Ho solo tentato di farmi il regalo di Natale.
Alessio Soldano
Il giorno dopo lo mettono sugli smartwatch, cioè non è che sia così tanto differente il gesto…
Stefano Maestri
No, no, però più discreto, boh, non so.
Alessio Soldano
Sì, non è diverso il gesto hai ragione, guarda, sì, hai ragione.
Paolo Antinori
Ma scusami, si chiama Pebble? Sai per caso se è di quella stessa startup che in passato aveva fatto il Pebble che era uno smartwatch con lo schermo e-ink? Perché se sono loro hanno deliberato loro, sono loro. E allora allora lo porteranno a casa il prodotto, cioè hanno un track record che convince che succederà. Poi loro erano falliti o erano stati comprati, non mi… forse erano stati comprati e chi li aveva comprati aveva discontinuato il prodotto, però ho degli amici che ce l’hanno quell’orologio lì. Era una nerderia carina.
Stefano Maestri
Infatti dicono dopo 9 anni in stasi siamo tornati, proprio è la line.
Paolo Antinori
Beh, allora se volevi essere sicuro se lo vedrai, probabilmente lo vedrai, però come diceva Alessio, anche secondo me da lì poi arriva dappertutto, arriva sull’orologio, sull’automobile, sugli occhiali, prossimo giro…
Stefano Maestri
Sì, sì. No, no, ma infatti finisce sicuramente sugli occhiali e la cosa affascinante è che tu non lo debba ricaricare, nel senso che ha dentro una sua batteria che dicono durare per anni.
Paolo Antinori
Eh beh, sì. Eh sì, sì, può darsi anche che usi quelle altre tecnologie che si usano nella domotica, per cui l’energia cinetica della tua pressione del pulsante gli dà quel tanto che basta per attivare.
Stefano Maestri
Sì. E poi ce l’hai addosso anche magari basta un piccolo accelerometro che carica, però era affascinante questa cosa che non lo devi caricare.
Alessio Soldano
Io pensavo al meccanismo degli orologi. Sì, meccanici, cioè agli automatici meccanici.
Stefano Maestri
Sì, sì, è una cosa del genere, di sicuro. Boh, mi aveva affascinato questa idea qui del Pebble. Poi mi era venuta in mente un’altra cosa da dire mentre parlavo di questa roba qua, ma me la sono persa.
Paolo Antinori
Eh, comunque per rimarcare qualcosa di detto del passato, invece la seconda parte di questa invenzione, ovvero il modello locale che ti prende del transcript, questo vi ricordo che è uno dei casi d’uso base del progetto di AI Edge Gallery di Google, quello che si può scaricare in cui tira giù un modello da 8 GB o qualcosa del genere e ti gira locale sul telefono. Io ce l’ho, mi gira, non lo tengo acceso, non lo uso praticamente mai, ma si può fare.
Stefano Maestri
Ma e non ti ho mai chiesto, ma il consumo della batteria di quell’oggetto lì?
Paolo Antinori
Non lo so, perché io lo tengo acceso il tempo che ci gli chiedo due cose e poi dico vabbè, ma perché devo fare sta cosa? Cioè, ha senso se sei in aereo o se sei sottoterra. Quindi non ho trovato un uso. Ero tentato, a dire la verità, di capire se potevo usarlo come building block per crearmi la mia automazione per convertire i maledettissimi messaggi vocali di WhatsApp in un messaggio testuale che WhatsApp ha la feature lato server, ma non per l’italiano e quindi non posso avere la traduzione automatica da vocale a scritto. Quindi ho detto, “Magari me la riesco a scrivere con l’aiuto di Vibe Coding o con qualche cosa così, ma sarebbe probabilmente da mettere in piedi un’app dall’inizio alla fine, con il modello che sia sempre attiva e a quel punto sì, la batteria potrebbe avere un impatto.”
[36:08] Gen Z: Studiare con l’AI
Stefano Maestri
Guarda, su questo invece un uso concreto da Gen Z delle AI, quando dico che magari i giovani che ci sono nati o che ci stanno crescendo hanno pensieri un po’ laterali rispetto all’uso che ne facciamo noi, l’utilizzo che ne fa di più mia figlia e su e alcuni suoi amici, compagni di classe contaminati un po’ da le mie manie. Eh, allora lei usa chat GPT più di me, molto più di me, nel senso che ha accesso anche a tutti gli altri Gemini, Claude e quant’altro. Claude non ci va d’accordo a conferma che è disegnato più per professionisti per la nostra generazione, per l’Enterprise. Gemini lo sta cominciando ad apprezzare. Parentesi, tra l’altro, su Gemini avete visto che c’è la nuova modalità vocale che è molto più espressiva, molto più carina, molto più alla voce più assomiglia molto più a quella di Chat GPT, diciamo, e dell’hanno annunciato l’altro giorno. L’ho provato stamattina che dovevo chiedergli delle cose. Ho provato a chiederle a Gemini invece che a GPT. Torniamo alla parentesi dopo perché mi hai fatto venire in mente che volevo dire due cose, no? E invece l’uso che ne fa mia figlia e lo usa molto e Chat GPT dice andare meglio di Gemini, ma lei non l’ha ancora provato col tre, la stimolerò a farlo col tre. È una roba che io non avevo mai pensato sinceramente di fare così. Gli carica le fotografie del libro, ok? Fotografa il libro che in classe o mentre studia sottolinea con l’evidenziatore o magari anche con evidenziatori diversi e gli dice “Adesso fammi un riassunto, ma voglio che tu mi riassuma soltanto le cose evidenziate collegandole tra loro. Sappi che il giallo ha questo significato, il verde ha questo significato, eccetera eccetera” e gli fa un prompt scritto bene e funziona, cioè gli fa dei riassunti veramente belli. Con grafici, con… No, allora con grafici no, perché ha usato GPT. Io ho provato a fare una roba simile dopo che l’ho visto fare a lei su Gemini. Gemini sapete che adesso genera anche tutta la le cose un po’ più grafiche e lì fa tutto fa tutto bello bello bello. Però io non ci avevo mai pensato al caricare il dispositivo cartaceo fotografato arricchito dal contesto dell’evidenziatore e chiedere il riassunto specifico. È un utilizzo carino.
Paolo Antinori
Non voglio smorzarti, ma io ci avevo pensato. Avevo cercato la feature e non l’avevo trovata e non avevo pensato di chiederlo a Gemini perché a me questo sembrava un problema da machine learning tradizionale. A me interessava le sottolineature dei miei libri stampati che sono cose interessanti, ma le vorrei avere in digitale per averle comode, magari da mettere in notebook LM e non le avevo e non ho mai pensato di fare la soluzione di tua figlia, ovvero darlo a un modello abbastanza potente che probabilmente riceve più informazioni di quelle che io gli sto chiedendo, ma che mi sa dare la risposta.
Stefano Maestri
Beh, fa tanti passaggi, eh, quella roba lì, cioè capisce cosa c’è sotto. Prende una foto, analizza, capisce cosa c’è sottolineato, fa l’OCR del testo sottolineato e poi fa il riassunto. Cioè, tanta roba quando dicono che gli LLM non svolgono compiti reali, beh, insomma, questo nel suo piccolo è un compito della Madonna.
Paolo Antinori
Sì, però fammi sottolineare che senza la parte di riassunto finale eravamo ancora nei limiti del machine learning standard, ovvero riconoscimento visuale, testuale e insomma gli OCR dei machine learning standard…
Stefano Maestri
Ma e poi anche riconoscere il sottolineato, cioè il ragionamento, ce lo dice meglio Alessio, ma il ragionamento che fanno sulle immagini, gli LLM visual eccetera è un altro livello rispetto a uno OCR di 3 anni fa, non 100.
Alessio Soldano
Guarda, su questo argomento qui è uscito un blog di Gemini di Google che parla proprio delle migliorie che hanno fatto sul Visual Reasoning in Gemini 3 Pro. E vabbè, anche qui lasciando perdere un attimo i benchmark che comunque sono interessanti, si fa proprio vedere una serie di casi d’uso in cui hanno insomma ottenuto dei risultati impressionanti. E tra… mi è venuto in mente prima quando citavi tua figlia Stefano, tra i documenti che davano tra virgolette da scannerizzare a questo tool per farglielo comprendere e digitalizzare c’erano addirittura anche dei manoscritti del 1800, eh, anzi XVI secolo, e che potete immaginare come dessero messi, diciamo, scritti in modo ordinato piuttosto che con calligrafia comprensibile. Quindi stiamo passando da “ok, riuscire a riconoscere il testo” a comprendere il testo magari su un formato, un documento di carta completamente magari rovinato piuttosto che con impaginazione assolutamente… mi verrebbe da dire incasinata, con grafia particolare eccetera e da lì produrre una tabella di un Excel o qualcosa del genere. Un altro esempio si faceva vedere un manoscritto con delle note di un professore universitario e il tool capisce e produce il LaTeX del testo, diciamo, delle espressioni matematiche nel documento. Anche qui tanta roba.
[44:24] Reasoning Visuale e Occhiali Google
Alessio Soldano
Eh, poi si diceva reasoning, reasoning anche perché questi modelli servono, di nuovo in ottica robotica per capire dall’immagine, per dire se dobbiamo spostare degli oggetti ritratti in un’immagine presa da un sensore, da un insomma da una telecamera, comprendere la disposizione tridimensionale degli oggetti serve per capire quale movimento dovrà fare, ad esempio, un braccio robotico per spostare un oggetto evitando gli ostacoli, nel insomma in modo da non romperlo, eccetera.
Stefano Maestri
Eh sì, VLA, insomma, alla fine.
Alessio Soldano
Sì, esatto. E questa cosa viene anche associata a un, diciamo, un ragionamento su, per dire, ho degli oggetti, li devo riposizionare al loro posto e la comprensione dell’immagine serve anche per capire dove vanno gli oggetti, cioè si passa da “metti le palline rosse nella scatola rossa” a “hai questi tre oggetti, sono un bicchiere, delle posate e qualcos’altro e mettili a posto”. E sullo sfondo si vede un armadio con oggetti simili, ma non necessariamente uguali e il modello comprende dove potranno essere riposti nella credenza, nell’armadio, le cose.
Stefano Maestri
E poi sai che tutta sta roba non serve solo per la robotica, ma anche per gli wearable, perché se immaginiamo gli occhiali che ti dicono qualcosa di quello che stai vedendo, devi poter riconoscere quello che stai vedendo. Perché tra l’altro questa settimana proprio Google ha annunciato che nel 2026 lanciano gli occhiali anche loro e prima che tutti quanti pensiate “e ma l’avevan già fatto e poi sono falliti con i Google Glasses e tutto”, stavolta sono un po’ più lungimiranti nel senso che hanno detto non li facciamo noi, noi facciamo la parte software e il modello che siamo capaci a farli. L’hardware lo fa Samsung basato su Android XR, la nuova versione di Android Augmented Reality e gli occhiali li fa Warby Parker. È più credibile, così tanto più credibile che Essilor Luxottica quel giorno lì ha perso il 12% in borsa.
Alessio Soldano
Beh, ma per darti l’idea della credibilità, come sapete, vedete, io ho gli occhiali e giusto in queste settimane sono in mezzo a 2000 peripezie per riuscire a ottenere degli occhiali che vadano bene, perché quando uno diventa sia presbite che miope è un problema. Eh, parlavo con l’ottico di fiducia del momento che mi diceva che insomma il mondo sta cambiando senza che io gli avessi chiesto particolari cose, no? E lui stesso mi ha citato l’intelligenza artificiale dicendo che nei convegni tra, diciamo, addetti ai lavori si parla già di come cambierà il mondo della produzione degli occhiali da qui a 1, 2, 3 anni. Nel senso che anche proprio tutta l’idea di avere lenti che facciano correzione di difetti visivi in un certo modo cambia, perché quando il software ti permette di cambiare la… di avere un qualcosa proiettato sul diciamo sulla lente piuttosto che di fare una correzione anche via software vuoi… tutta l’idea degli occhiali come li abbiamo adesso evolve.
Stefano Maestri
È come quando passi dal fatto di che per fare una foto di un certo tipo senza scomodare l’arte, che è un altro discorso, ma fare una foto di buona qualità 10 anni fa, 15 anni fa, comunque avevi bisogno di lenti Carl Zeiss di un certo tipo. Adesso con delle lenti di plastica, perché sono di plastica che ci sono sul su certi telefonini e tanto software dopo viene una foto che di nuovo non è quella là, però all’occhio non allenato…
Alessio Soldano
…per il 99% degli occhi è la stessa se non meglio. Che sì.
[47:26] Gemini su Google Home e Translate
Paolo Antinori
Scusatemi, tutta questa AI applicata mi ha fatto venire in mente che ho anche io ho qualche storia di AI applicata questa settimana, di cui probabilmente potrò parlarvene meglio la prossima volta, ma vale la pena menzionarlo oggi. Ieri sera ero… prima di andare a dormire stavo aggiornando le app del telefono di Android, cosa che faccio più o meno ogni settimana e mi ha stupito il fatto che ieri sera le app da aggiornare erano 44 e ho detto “La Madonna”. Quando sono così tante il primo pensiero da addetto ai lavori è c’era un buco di sicurezza core e che lo devono patchare tutti quanti e non ce l’hanno ancora raccontato, ce lo raccontano settimana prossima, ma il fix è stasera. E ho detto boh, magari è quello, però poi ho detto ma magari invece visto che adesso i tempi sono cambiati, magari non è per forza buco di sicurezza, ma magari è qualcosa legato all’AI, perché c’era quasi tutta la suite di Google in aggiornamento. Allora, ho provato ad aprire un’app a caso, Google Home, e ho detto… anche perché continuavo a leggere sul web che il rollout di Gemini su Google Home è già iniziato, dovresti dovrebbero averlo tutti, a me nessuno mi ha detto niente, quindi ho aperto e mi sono accorto che c’era un pulsante che forse era lì da mesi perché non l’avevo mai visto, in cui se clicchi sul microfonino in alto a sinistra c’è un bordino arcobaleno, non si nota particolarmente bene, che suggeriva essere Gemini. Ho detto “uh è arrivato”, c’ho cliccato sopra e ho scoperto che voleva da me che accettassi l’uso di Gemini, quindi probabilmente quella feature era lì che aspettava da due mesi, ma nessuno si è mai preso la briga di dirmelo. Quindi io ieri sera ho attivato Gemini su Google Home, non l’ho ancora provato, mi sono ricordato solo adesso di averlo fatto ieri sera mentre l’ho letto, quindi non ho idea di come si comporti. Settimana prossima ve lo racconto. Questa è una legato alla mia curiosità.
Stefano Maestri
Paolo hai anche dispositivi Google Home?
Paolo Antinori
Ho un Google Home singolo che principalmente uso per far suonare il telefono quando lo perdo in casa e perché trovo che non mi ha sempre dato la sensazione di non essere particolarmente più intelligente di Alexa e quindi sono più orientato da Alexa.
Alessio Soldano
Ma quale dei dei vari sei? Il nest? Quello con lo schermino?
Stefano Maestri
Sì, un Nest Mini.
Alessio Soldano
Sì, un uno di quelli a forma di disco così. E vabbè.
Paolo Antinori
E quindi vi saprò dire però di più da stasera in poi che lo uso un po’ di più. L’altra cosa che stavo inseguendo è che, peraltro, mi è capitato di commentare in un post su LinkedIn ad Alberto Danese che parlava di altro. Stavo leggevo che Google Translate ha introdotto una nuova modalità che vorrebbe rubare un po’ di mercato Duolingo. Che cos’è? È la modalità learning personalizzato e anche lì l’ho cercata l’altro ieri, non c’era una mazza. Ho detto “Vabbè, non c’è”. Ieri sera, dopo aver aggiornato tutto il telefono, ho trovato che c’era l’aggiornamento, c’era scritto “Uh, c’è il profilo learning”. Anche qui non l’ho provato perché era tardi, non potevo parlare, ma voglio provare a vedere se Google Translate adesso riesce a ad aiutarmi a imparare in inglese in una maniera alla Duolingo e sono curioso.
[49:43] Fare il pane con l’AI
Paolo Antinori
Terza cosa, questo adesso più per farvi sorridere, forse andava bene in chiusura, ma ve lo racconto adesso, sennò mi dimentico. Mi è capitato di usare in famiglia l’AI per uno scopo pratico questo weekend. Avevamo il pane nel forno e dovevamo andare via perché avevamo un impegno, altrimenti non ce la facevamo e quindi dovevamo decidere cosa facciamo. Spegniamo prima, non spegniamo prima, chi lo sa? E mia moglie mi fa: “Prova a chiedere a a Gemini che cosa ne pensa”. E allora gli abbiamo detto, “Senti Gemini, sto cuocendo il pane e è dentro a questa temperatura da questo momento, però io devo uscire e quindi vorrei che tu mi dessi delle indicazioni su quando impostare lo spegnimento automatico del forno che si può fare”. Però il timore era che lasciando il pane nel forno, ma non potendolo aprire, il pane andasse avanti nella cottura man mano che si si rinfrescava il forno. E Gemini ha effettivamente interpretato questa situazione dicendo “Oh, però sì, se lasci il pane nel forno rischi che ti si brucia, in particolare ti si secca. Fammi fare due o tre calcoli.” Quindi il forno è ben coibentato, hai detto questa temperatura, bla bla bla. Se il pane è grosso così tienilo tra i 10-12 minuti, se è grosso cosà tienilo in quest’altra cosa qua. Mia moglie fa “era più o meno quello che mi aspettavo”. L’abbiamo fatto, era uguale al solito, cioè se c’erano delle leggere differenze non abbastanza da notarle e non è andata a fuoco la casa.
Alessio Soldano
Quindi ecco, siccome siamo green, verrebbe da dire la prossima volta lo fai on purpose, così lo fai volutamente così, spegni il forno prima e usi il calore latente per finire la cottura.
Paolo Antinori
Guarda, e l’esperienza è stata super positiva. Se non c’è il rischio dell’allucinazione sempre dietro un angolo, per cui rischi di dare fuoco a casa tua, lo farei molto più rilassatamente.
Stefano Maestri
Vabbè, è super super interessante questo, visto che io faccio spesso il pane. Oddio, in questo periodo sto facendo i panettoni e con tutto il bene non mi fiderei troppo a cambiare neanche di una virgola qualunque cosa io faccia con i panettoni, tecnica affinata in anni, però vabbè, questo è un altro discorso.
Alessio Soldano
Scusa e sempre perché poi dopo uno parte la la le idee, ma a questo punto stiamo anche dicendo che magari un forno piuttosto che un piano cottura induzione AI infused del futuro, tu gli dici cosa stai cucinando e poi gestisce lui l’accensione, lo spegnimento, eccetera.
Paolo Antinori
Ragionevole, i microonde credo che già ci siano su questo, no?
Stefano Maestri
Ma anche i forni in teoria, eh, tipo, non facciamo pubblicità marche, ma una roba che si chiama sesto senso, fa quella roba lì. In teoria io non l’ho neanche mai comprato perché non non mi fidavo, però forse mo va meglio, può essere. Poi tu mi insegni che esistono anche i termostati già che fanno quelle cosa lì in casa, ma poi in realtà non è vero che consumi meno e c’è tutto una teoria.
Paolo Antinori
Vi aggiungo una piccola pillola basata sul mio di elettrodomestico che non è particolarmente intelligente, però per ricordare che un po’ di intelligenza c’è: la mia asciugatrice prima di partire fa tre mezze rotazioni e facendo così pesa il contenuto del cestello e pesandolo sa stimare quanto deve essere lungo il lavaggio.
Stefano Maestri
Sì, mio lo fa la lavatrice e poi tutte le asciugatrici hanno un sensore di umidità per decidere quando la roba è asciutta, quindi un po’ di intelligenza c’è.
Alessio Soldano
Poi dopo comunque tra i nostri follower c’è un mio amico che lavora in quell’azienda lì che dici tu che ha sedi qui vicino dove abito io e che e quindi vediamo se ci fa sapere qualcosa.
Paolo Antinori
Ma perché non possiamo nominarlo? Sono così malvagi che ci bucano le gomme della macchina. Mi briccano la lavatrice da remoto.
Stefano Maestri
No, perché non ci pagano. No, perché questo è il famoso momento Mastrota, quello in cui tu dovresti entrare e dire “no, perché se volete che vi nominiamo dovete essere sponsor della puntata”. No, scherzi a parte, no, invitiamolo il tuo amico che lavora nell’azienda. Ah, sembra Mastrota sicuro, eh, però vabbè. E gli facciamo fare a lui, mettete stelline, campanelline, bam, e lì spacchiamo.
Paolo Antinori
Secondo me Mastrota viene se lo invitiamo. Scusami, a proposito di, visto che abbiamo smesso di essere seri da tempo, prima raccontavi un punto di vista da Gen Z. Mi hai fatto rendere conto che noi non abbiamo avuto particolari Gen Z ospiti e la persona più giovane che abbiamo avuto penso sia stata Veronica e che per lei era molto nerd dell’ingegneria e quindi non so se sia rappresentativa del Gen Z che becchi in giro a scuola, diciamo, normalmente.
Stefano Maestri
Neanche, neanche. Al massimo una millennial Veronica. Adesso io non chiedo l’età alle donne, però sì. Gen Z è mia figlia.
Paolo Antinori
Credo che sia sì, sì. Eh, adesso non non mi metto a invitare tua figlia, ma tendenzialmente qualcuno che possa rappresentare la generazione di tua figlia potrebbe essere interessante da avere a raccontarci la loro visione.
Stefano Maestri
Io ce l’avrei uno in mente che magari ci ascolta pure, che è un amico di mia figlia che che però che che mi aveva sentito parlare di queste cose a scuole che fa adesso ingegneria informatica. Insomma, Edoardo ha capito se che sto parlando di lui nel caso ci ascolti. Se vuoi venire volentieri.
Paolo Antinori
Ha ragione Paolo, sarebbe bello avere un ospite generazione Z o studente dai primi anni comunque dell’università per capire quello che vedete voi succedere.
Stefano Maestri
Eh, mi piace l’idea molto.
[56:51] Claude Code e integrazione Slack
Stefano Maestri
Detta questa cosa qua, io invece volevo dirvi una cosa, no, volevo volevo chiedervi una roba. Abbiamo parlato di due cose, in realtà. Una Paolo, che è il nostro più grande fan di Slack. No, ma avete visto, no, a parte la battuta, avete visto che Claude Code ha annunciato che si integra a Slack. Io c’ho dei mixed feeling su quella roba lì, ma io non sono un grande fan di Slack, quindi non non valgo.
Paolo Antinori
Allora la mia reazione è stata MB nella versione meno politically correct di MB e perché mi viene da dire, cioè che potrebbe essere un tutorial di qualunque stack software come integrarti con Slack, cioè non ti serve una multinazionale che lo fa per te, quindi dici vabbè. Però eh evidentemente non c’ero. Comunque era probabilmente un discorso di soldi. Quanti me li dai a me di soldi per farti fare questo? Quanti te ne do io per farlo? Quindi c’era questa parte qua. La parte invece che io trovo interessante da schiavo del sistema che lavora per grosse società con Procurement e IT è che quando metti un’integrazione così forte di default nel catalogo di quelle che possono essere attivate è forse più facile che il tuo reparto IT dica “Ah, questo ha già passato tutte le varie autenticazioni di sicurezza FIPS Fed RAMP, you name it riguardo la privacy e quindi è soltanto un flag e possiamo abilitarlo molto più facilmente” anziché normalmente se chiedi di integrare due sistemi ti dicono “No, mio Dio, non si può passare i dati”. Quindi quello l’ho trovato molto interessante, cioè rendere permeante questa integrazione e quindi molto più accessibile. Altrimenti, come vi dicevo, l’MCP Server di Slack conosco la gente che ce l’ha installato da 3 anni.
Stefano Maestri
Eh no, però sai cos’è? La io invece quello che c’ho visto è la risposta di Anthropic a OpenAI con le chat di gruppo di chat GPT, perché qui l’annuncio è che Claude diventa uno dei membri del tuo Slack e lo puoi aggiungere ad un canale. E infatti nell’esempio che fanno vedere loro è il team che parla del tal baco eccetera. A un certo punto Claude si inserisce e dice “No, avete capito un cazzo, non è questo il problema vero della issue e ve lo spiego io che sono più intelligente.”
Paolo Antinori
Guarda, rimango che non lo so perché questo caso d’uso è stato uno dei primi a essere implementato da chi sapeva come farlo, quindi io l’ho sempre incrociato in giro questa cosa. Magari possiamo parlare che adesso la UX è migliorata, ovvero se prima dovevo saper scrivere un programma, adesso mi basta invitare un account e ho la feature. Quindi quello sì, ha il suo impatto, però non lo so, il primo pensiero mi va proprio alla privacy, più a gente che mi dice “Sì, sì, si può fare ma non farlo”.
[59:26] Waymo: Espansione e Business
Stefano Maestri
Ok. E invece l’altra roba che non è per niente collegata a questa, ma siccome abbiamo parlato a lungo di Tesla che guida da sola eh e tutto, Waymo invece ci crede ci crede forte, nel senso che sta diventando addirittura qualcuno dice il business principale di Google da qui al 2030 che a me sembra era un po’ tirata, però va bene che di macchine ce ne in giro tante…
Alessio Soldano
Però ho sentito dire anche da gente che stimo molto…
Stefano Maestri
…però bah, mi sembra un po’ un po’ tiratina dal il principale business di Google, però sicuramente un business significativo, no?
Alessio Soldano
Anche perché il business di Google non è esattamente noccioline. La news comunque è interessante perché c’è questo fondo di investimento Tiger Global che dice sostanzialmente che continua a investire su su Waymo e afferma che attualmente fanno tipo 450.000 viaggi per settimana.
Stefano Maestri
Vabbè, ricordiamolo, Waymo sono macchine a guida autonoma in America soltanto che vabbè hanno un sistema differente da quello di Tesla, hanno molti più sensori eccetera.
Alessio Soldano
Solo taxi, precisiamo, sono macchine a guida autonoma, ma solo taxi, solo per… Sono un servizio pubblico sostanzialmente, invece di chiamare un taxi, uno chiama un Waymo.
Stefano Maestri
Sono macchine di varie marche vestite con la roba di Waymo. Anche questa è la differenza. Cioè, non è una macchina nata per, è una macchina che è stata empowered.
Alessio Soldano
Esatto. E la news da un punto di vista tecnico interessante del momento è che sostanzialmente questi dicono “Vabbè, abbiamo girato per le città, per le metropoli americane, adesso iniziamo a andare anche nelle freeway” che credo sostanzialmente siano l’equivalente delle nostre superstrade, che è uno step interessante, allarga ulteriormente il business.
Stefano Maestri
E poi c’era anche l’annuncio non collegato che l’anno prossimo debuttano a Londra e Parigi, se ho capito bene.
Alessio Soldano
Waymo? Eh, qua me lo sono perso, onestamente.
Stefano Maestri
Sì, è un’altra cosa che ho letto in settimana. Sono abbastanza sicuro. Adesso non ho il riferimento sottomano, ma sono abbastanza sicuro.
Alessio Soldano
E no, vabbè, comunque tanta roba, eh, perché…
Stefano Maestri
Ah, no, no, sicuramente no. E poi è comunque un altro avvicinamento al mondo della robotica, perché comunque alla fine una macchina guida autonoma è un robot su quattro ruote che fa cose, non è che… Allora, quindi a questo punto siamo all’ora, noi di solito chiudiamo l’ora e 10, ma salutiamo già gli ascoltatori non super nerd e super tecnici. È stato un piacere, vi salutiamo qua perché mo parto con una cosa su cui sono sicuro che quando guarderò il grafico va giù a picco e se ne teniamo due di ascoltatori che sono io che quando ci riascolto e un altro matto.
[01:03:36] Ricerca: Oltre i Transformer (Titans, Nested Learning)
Stefano Maestri
Allora, quindi grazie intanto per essere stati qua, gli ascoltatori non tecnici e partiamo con l’ultima l’ultima cosa che abbiamo in scaletta, che sono un paio di ricerche, tre in realtà, molto verticali sul mondo dei modelli. Mondo dei modelli. Allora, abbiamo nominato Ilya Sutskever o come cavolo si pronuncia e tutti gli altri che stanno cominciando a dire “Ho sentito un podcast anche di quelli di Sakana AI, quelli giapponesi…”
Paolo Antinori
Scusami, ti faccio vedere un’immagine di tutti gli altri che è diventata popolare questa settimana, non so se l’avete vista. Questa è la copertina della persona dell’anno di Times che è stata dedicata e sia all’AI, ma hanno fatto anche loro stessi questo montaggio, il sito editimes.com con loro sulla famosa foto degli operai che costruiscono l’Empire State Building o qualche era.
Stefano Maestri
Carino, carino, carino. Eh no, e comunque tutti quanti stanno cominciando a dire bello, bello, bello, bello i Transformer. La legge di scalabilità, una figata. Facciamo Chat GPT 5.2, facciamo dei benchmark superlativi, ma… il ma è fino la legge di scalabilità che dice sostanzialmente più risorse miglior risultato se lavori bene. Interessante per il business, interessante per tanti motivi, ma se vogliamo davvero raggiungere quella che abbiamo chiamato general intelligence o super intelligence non basta, serve qualcosa di più. Da un lato ci sono quelli che insistono tantissimo sul i modelli hanno bisogno di un’esperienza diversa e quindi World Model e sto pensando a quello ex meta, aiutatemi, quello francese LeCun e Yann LeCun che se ne va per fondare un’azienda basata su World Model. Sto pensando a Demis Hassabis che crede moltissimo a tutta questa parte e i Gemini si vede che credo tantissimo in tutta questa parte, ma c’è anche qualche voce un pochino più fuori dal coro se vogliamo. Vedi Ilya Sutskever e questi qui di Sakana e altri che dicono, ma anche lo stesso Yann LeCun l’ha detto chiare lettere, bisogna andare oltre il Transformer. Ricordiamo che il Transformer è l’architettura in questo momento più usata, che non è altro che una serie di reti neurali messe in maniera tali per avere attenzione sulle parole e si mima il linguaggio umano e si utilizza il linguaggio umano come forma di pensiero. Adesso questo veramente con grandissima sintesi. Una delle cose che più si dice è quello che manca a questi oggetti è la capacità di avere memoria, cioè la memoria è solo quella di breve termine, il famoso context, abbiamo parlato tante volte di context engineer e questo quando il contesto è basato di nuovo sul meccanismo di attenzione e man mano che il contesto si allarga il meccanismo di attenzione diventa sempre più costoso, ma anche meno efficace per certi versi, ma soprattutto non ha una memoria di lungo termine. Se noi guardiamo l’intelligenza che stiamo cercando di mimare, che è quella umana, oltre al ragionamento tipico della corteccia prefrontale, esiste anche due grandissimi aspetti, ce ne sono molti a tre o quattro grandissimi aspetti. Uno è quello della percezione e torniamo ai World Model eccetera eccetera, quindi vedere, toccare, gustare, annusare. Ci sono esperienze diverse dal parlato, evidentemente anche per noi. Un altro è le emozioni, l’ippocampo e le emozioni che hanno una funzionalità comunque, cioè la paura, il senso di paura o il senso di disgusto, il senso di rabbia, hanno delle funzioni per il pensiero, soprattutto quello istintivo. E su questo c’è un sacco di ricerca, ma più neuroscientifica in realtà che tecnologica. E l’ultimo è la memoria a lungo termine. E sulla memoria a lungo termine è un altro degli aspetti insieme alla parte di percezione su cui si sta cominciando ad investire molto e la stessa Google che ho nominato per la visione sta investendo molto su questo. Sono usciti due paper collegati tra loro che meritano, secondo me, una menzione anche qui in podcast. Poi non è che ho la pretesa di raccontarli perché sono complicati. Da chi è interessato e vuole se li va a leggere, si fa aiutare da notebook LM. Li ho citati anche in newsletter con qualche parola in più. Eventualmente li spiegherò meglio, ma in un qualcosa di scritto. Però mi piaceva citarveli qui al volo. Sono tre paper in realtà. Uno di qualche settimana fa che da cui parte un po’ tutta questa cosa qui che si chiama Nested Learning. Il Nested Learning è un’architettura diversa dai Transformer, interna ai Transformer, per un’ottimizzazione più spinta interna. Questa è davvero complicatina da spiegare a parole, ma immaginatevi questa cosa: i perceptroni che sono sostanzialmente l’equivalente dai neuroni umani nelle macchine sono questi singoli punti dove noi facciamo ragionamento e nella versione più semplificata degli anni 70 erano accesi o spenti né più né meno. Adesso c’è una funzione che si chiama ReLu di attivazione che è più morbida, non è esattamente acceso spento, ma alla fine ci avviciniamo molto lì. Semplificando tantissimo e chiedo perdono per chi ha letto la ricerca e sa che i dettagli sono diversi, l’idea è quella di portare qualcosa che assomiglia ad un piccolo modello a livello del perceptrone, quindi non è un’attivazione secca, sono acceso, sono spento, ma ho un micro-ragionamento all’interno del singolo perceptrone perché le ultime ricerche neuroscientifiche evidenziano come i nostri neuroni quella roba lì in realtà la facciano, che spiega perché così pochi neuroni rispetto alla dimensione dei modelli in realtà diano dei risultati eclatanti, eclatantemente migliori se paragoniamo dall’intelligenza umana. E questa è la ricerca di partenza. Le ultime due uscite che sono collegate tra loro invece si chiamano Titans e Miras o Titans e Miras, non so come pronunciarli, se all’inglese o alla latina, che portano invece il discorso della memoria. Il discorso della memoria, questo lo spiego in maniera semplificata sempre, ma che secondo me lascia l’idea di che cosa parlano questi due paper. Poi vi lascio il link agli articoli di Google che sono più semplici da leggere che poi hanno al loro interno il link al paper vero e proprio. Allora, Titans cerca di mimare con una cosa che si chiama multilayer perceptron, che assomiglia un po’ a quello che ho descritto prima, la memoria di lungo termine, ma la cosa che a me colpisce dal paper è come fanno a decidere che cosa memorizzare all’interno del modello a lungo termine o no? E si basano sull’effetto sorpresa. Cioè, se una cosa che va a finire in contesto ha un livello di sorpresa alto è qualcosa che merita di essere memorizzato perché spezza un pattern noto. Ovvero stiamo dicendo che con il pretraining i modelli imparano pattern noti e quelli è difficile che io riesca a migliorarli, ma quando con un lavoro di context engineering spingo i modelli a fare qualcosa di diverso, quello è il momento in cui memorizzare e fare imparare qualcosa di nuovo al modello. I risultati nel paper sono ottimi in ambiente controllato, con modelli piccoli, come sempre nei paper. Però l’idea in sé è affascinante ed era quella che volevo trasmettere qui a voce. Il secondo invece Miras che è collegato è invece proprio più sul meccanismo di memorizzazione, e lì si utilizza un’architettura diversa dai Transformer. Quella, leggetevela se volete, ma a me piaceva farvi vedere per chiudere questo grafico qua che trovate nel paper dove c’erò la condivisione qua, share screen, questo grafico che fa vedere come il livello di perplexity, cioè più è alta la perplexity, più è bassa l’accuratezza, in realtà sia in grado di scendere molto meglio. Guardate le linee gialle, cioè lasciate stare quella blu. Quella blu è un modello normale in pratica modello normale. Al crescere dalla dimensione del contesto ha dei comportamenti divergenti, come vedete, migliora fino ad un certo punto, poi quando il contesto cresce troppo comincia a dare risposte a caso. Ed è una cosa che chi ha usato cose con contesti veramente lunghi ha avuto esperienza. Quando dico che è meglio far ripartire Claude Code da zero su ogni task che andare avanti tutto il giorno con un Claude Code aperto… è esattamente quella roba lì, perché ad un certo punto, quando il contesto si riempie e diventa troppo lungo, anche senza andare oltre la dimensione del contesto, si cominciano a perdere dettagli. Invece questo i grafici sono quattro diversi grafici di utilizzo di diverso di memoria usando questo schema qua di Miras fanno vedere come alla peggio si stabilizzi non va mai in controtendenza l’accuratezza. E questo che cosa ci dice? Che probabilmente la prossima ricerca dal prossimo anno sarà in con questo metodo o altri metodi avere contesti sempre più grandi utilizzabili. I contesti sempre più grandi utilizzabili potrebbero portare ad ulteriori miglioramenti dell’uso dei Transformer, perché i Transformer con contesti molto grandi fanno una cosa che in gergo viene chiamata in-context learning, quindi gli posso dare così tante informazioni da spingere il modello oltre quello che già sa. Bene, adesso negli ultimi 3 minuti mi sono perso anche l’altro nerd che ascoltava e ci sono solo io che ascolto, quindi saluto me stesso, il me stesso del futuro. Bello.
Paolo Antinori
Confermo che hai perso anche me.
Alessio Soldano
Beh, il nerd si iscriva al canale.
Stefano Maestri
Il nerd si iscrive al canale assolutamente. E comunque intanto io saluto il me stesso del futuro che è interessante questa qui, no?
Paolo Antinori
Eh, cercando di contribuire qualcosa di ragionevole quello che hai detto, avevo sentito interpretazioni di questi paper in altri podcast e c’era qualcuno che aggiungeva un altro elemento di metacognizione umana che potrebbe avere un ruolo in tutti questi ragionamenti. Ed è quello per cui il nostro cervello umano, quello delle persone quantomeno neurotipiche perlopiù, ricorda dettagli fino a una certa soglia. Il famoso esperimento delle sette cifre. Dopo un po’ lasciamo perdere. Però cosa significa? Significa che il nostro cervello butta via tutto quanto, no? Che tendenzialmente il nostro cervello con le informazioni che ha ricevuto e che sa che dimenticherà le prende e le astrae, cioè le riassume e si tiene neanche il riassunto, ma proprio i concetti essenziali di che cosa c’è dietro. Qua si ricorda, che ne so, la struttura di una storia, il buono, e il cattivo, tutte queste cose qua che sono ad alto livello, poi i dettagli se li perde. Qualcuno ha proposto come questo possa essere un approccio naturale da andare a cercare, a replicare, quindi senza andare a inseguire il contesto e quindi quella curva che risale, che diverge, come facevi vedere tu, e magari è quella la chiave e so che c’è chi ci sta guardando.
Stefano Maestri
Sì, sì, sì. Eh, è in parte contenuto nell’altro paper, il primo che ho nominato, quello chiamato Nested Learning. Sì, sì, è assolutamente un punto di vista super interessante anche quello che non è fare la sintesi del contesto, è un’altra cosa di un altro livello di astrazione perché dove peccano oggi quando vedete Claude sta comprimendo il vostro contesto, ecco, lì è l’inizio dei problemi di solito. Perché chiaramente fare un summary, fare un riassunto puramente testuale, come riassumeremmo un libro letto, perde dettagli che magari sono quelli significativi. La sfida è tenere i dettagli significativi e buttare quelli superflui. Il famoso esperimento delle sette cifre, in cui tu dai una serie di numeri che hanno anche sette cifre, la maggior parte delle persone non si ricorda le sette cifre, ma sa dirti qual era la cosa che aveva un prezzo più alto. Quella lì è l’informazione da tenere, e non è detto che facendo invece una summary pura basata sul testo questa roba funzioni, anzi non funziona. Bene, siamo oltre. Risaluto il me stesso del futuro e saluto tutti quei pochi che sono rimasti fino qua. Grazie. Ciao ciao ciao ciao.