Claude Code, OpenClaw e l’Effetto Slot Machine: la nuova era dell’AI Engineering #41
👉 Ascolta su Spotify
👉 Guarda su YouTube
👉 Segui su LinkedIn
[00:00] Introduzione e Riflessioni Iniziali
Stefano
Buongiorno. Buongiorno a voi due. Buongiorno agli ascoltatori. Buongiorno alle ascoltatrici.
Alessio
Ciao!
Stefano
Sei uscito dal corpo di Antonello. Perfetto. Hai mantenuto solo i capelli più o meno di Antonello, che sei l’unico dei tre che ne ha seriamente. Io sono quello che ne ha di meno. Devo dire che raramente ci riascolto ultimamente. Mi sono riascoltato un pezzo stamattina perché mio figlio di 6 anni per farmi piacere mi ha detto che voleva sentire in macchina. Non è vero niente, probabilmente, ma voleva farmi piacere, quindi lo ringraziamo. È stata divertente la puntata. Chi non l’avesse sentita può andare, non perché non c’era Alessio, ma in generale. Paolo è stato abbastanza cazzone, io anche e quindi avanti così, no? Allora, siamo partiti di nuovo.
Alessio
Ma fammi capire, sei stato un’ora e 17, no, un’ora e 10 in macchina da ascoltarlo?
Stefano
No, ho sentito i primi minuti. No, ho sentito i primi minuti e mi hanno fatto sorridere. Basta. No, no, solo i primi minuti.
Alessio
O l’hai ascoltata a 7x?
Paolo
Ma soprattutto hai schiacciato le campanelline, le stelline, quelle cose lì?
Stefano
No, io le ho già schiacciate le campanelline e le stelline. Invitiamo gli altri ascoltatori. Perché intanto, guardando i dati, abbiamo un sacco di ascoltatori extra campanelline e stelline che chiameremo gli ascoltatori occasionali, così come i rapporti occasionali. Però sempre per restare sullo stesso livello, tanto non ci ascoltano i bambini, a parte mio figlio. No, però mettetele ste stelline, ste campanelline, ci date una mano se siete lì che ascoltate, perché lo vedo che il numero di ore non sono compatibili. Non mi vedo il nostro ascoltatore normale che ci ascolta 2, 3, 4, 5 volte. Sarebbe strano. È vero che forse sono strani chi ci ascolta, però.
Vabbè, questa era una marchetta venuta quasi simpatica, però bravi. Non l’abbiamo preparata, siamo solo così scemi.
[02:30] Disagi e Riflessioni sull’AI
Stefano
Allora, no, un sacco di cose, ma parliamo prima di tutto dei disagi di Paolo.
Paolo
Infame. Volevo io rompere il tuo flusso, invece tu l’hai rotto a me.
Alessio
Era già rotto di partenza.
Paolo
Sì, Paolo ha qualche disagio. Ammetto di forse avere un problema e per fare riferimento a fare anche qualcosa di intelligente, ovvero fare riferimento a un popolare articolo che è stato ripostato queste ultime settimane che parlava, intitolato AI Vampire, i vampiri dell’AI, che era a sua volta un riferimento a What We Do In The Shadows, per quelli che l’hanno visto, e Colin Robinson, il vampiro dell’energia, che è un concetto meraviglioso. Dovresti guardare la prima puntata solo per quella cosa, fa riderissimo. L’idea è che questa AI ci sta rubando un po’ le energie, insomma, ci sta rubando un po’ l’attenzione, il focus e tutte queste cose qua.
È strano perché leggevo di queste cose negli articoli che parlavano di San Francisco, in particolare con la visione un po’ particolarmente negativa in cui si diceva che le startup più spinte, quelle che già prima lavoravano un sacco di ore, adesso gli si vuole fare lavorare ancora di più perché gli si dice “avete tutti questi agenti che fanno cose per voi”, l’aspettativa è altissima e quindi nei contesti più aggressivi, diciamo, l’ambiente è decisamente stressante e tossico. A me viene in mente un pochettino Wolf of Wall Street con DiCaprio, quello stile lì, non faccio fatica a immaginarlo. Però ho detto “Vabbè, ok, cioè problema della Silicon Valley, problema di San Francisco, sti cazzi”.
Stefano
Sì.
[04:27] Potenzialità e Limiti delle Tecnologie AI
Paolo
E insomma, diciamo che quando ho iniziato a rendermi conto delle potenzialità applicabili alla mia quotidianità di queste tecnologie, ovvero riassunto in una frase, letteralmente trasformare qualunque idea in una realizzazione da lì a breve. Questo è quello che è per qualcuno che sa, ha delle aspettative, sa vagamente quello che sta facendo. Il tempo, quasi sì…
Stefano
Quasi qualunque, quasi qualunque, perché l’audio di Linux non puoi risolverlo comunque, neanche con l’AI, quello non ci si riesce. Le virtualizzazioni leggere, lo so perché ho buttato via parte della mia vita questa settimana su quella cosa lì e non la risolvi comunque. Per cui quasi ogni problema.
Paolo
Ok, grazie per la correzione, ci sta tutta. Però insomma, no, il potenziale è di dire come se avessi tre desideri da esprimere per un programmatore, in realtà non ne hai tre, ne hai 3 miliardi e puoi farne quanti ne vuoi. Qual è la risorsa che poi va a mancare a questo punto? Banalmente il tempo, nel senso che tu puoi fare tutte queste cose che prima rimandavi ad un weekend lungo, a quando la famiglia andava in vacanza e tu potevi concentrarti con calma e invece adesso tecnicamente puoi farla in qualunque momento.
Stefano
Fai dal letto con Telegram, tanto per dire.
Paolo
Stavo costruendo, non rompere la mia narrativa. Puoi fare in qualunque momento. Cosa ti serve? Ti serve, beh, probabilmente ti serve un abbonamento senza limiti di token, perché altrimenti a un certo punto il provider ti dice “nice try”, ma hai speso tutti, sì, basta.
E quello però, il problema l’avevamo più o meno risolto grazie al fatto che Stefano lo pagano per vendere account di ZAI e quindi l’ha fatto comprare a me, ad Alessio. Io l’ho fatto comprare a un’altra persona, quindi questo Ponzi scheme sta funzionando.
Alessio
Sì, va bene, basta.
Paolo
Io gli ho dato l’abbonamento annuale Max Ultra Giga, quello in 4K.
Alessio
Io gli ho dato pochi pochi soldi, cioè 10 euro ogni 3 mesi.
Stefano
Che Minimax. Thank you.
Paolo
Che comunque ha un prezzo contenuto, 250 euro totali, qualcosa del genere, insomma, che è accettabile, e si sta ripagando tutto. Cioè io sto abusando di questa cosa quasi costantemente perché fa delle cose. Poi, come dicono, giusto per non dare false aspettative, ogni tanto è giù il servizio di ZAI, e loro stessi dicono “Noi vi diamo il servizio, costa poco, però gli SLA sono quelli che sono, quindi portate pazienza se ogni tanto siamo offline.”
Stefano
E sono 15 euro al mese alla fine, fatti i conti più o meno.
Paolo
Ed è ragionevole. È ragionevole in termini di uno che offre il servizio e uno che lo paga poco. Diventa difficile ragionarci sopra quando sei nel bel mezzo di un ragionamento, di qualcosa che stavi facendo e finalmente eri arrivato al punto e boom, non ti risponde più l’AI remota e tu dici “Oh mio Dio, è committata la transazione, le informazioni ci sono oppure no?”
E lì è un po’ di sudori freddi, è di panico, che portano a un eventuale fork. O aspetti, oppure fai quello che ha fatto Stefano nel cuore della notte l’altro giorno. Cosa hai fatto?
Stefano
Cosa ho fatto? Io non dico i miei peccati, però. No, scherzo. Allora, no, GLM, siamo onesti, io l’ho sponsorizzato e continuo a sponsorizzarlo perché secondo me come modello è notevole. Dopo ci arrivo a questo, però oggettivamente sì, ogni tanto è giù e non è velocissima la risposta.
Io che prendo in giro Paolo, ma che ultimamente lavoro con quattro finestre aperte tutte su Claude, per fare due cose per volta per progetto, ne ho di solito due progetti, due cose per volta. Questa lentezza mi dava fastidio e allora sono andato a farmi l’abbonamento di Minimax, Minimax M2.5, di cui si dice un gran bene come modello eccetera, ma poi su quello arrivo perché secondo me il GLM è meglio, ma che ha un abbonamento normale e poi ha l’abbonamento super fast in cui invece loro hanno un SLA di 100 token per secondo. Quando l’ho visto non ho potuto resistere. 100 token per secondo mi sembrava la cosa dei miei sogni, più o meno.
Paolo
La fibra ottica dei modelli.
Stefano
La fibra ottica degli LLM e l’ho preso ed è bellissimo, cioè ad una velocità meravigliosa. Secondo me i risultati in senso stretto dal punto di vista del coding, ovviamente sono meglio quelli di Claude Opus, che dà una mezza pista a tutti. GLM si avvicina di più ad Opus secondo me di quanto non lo faccia Minimax. È comunque un buon modello che paragonerei però ad un Sonnet 4.5, però veloce in un modo incredibile per fare cose minime, anche di buon livello, va bene e dà una velocità pazzesca.
[09:27] Gamification e Coding nell’Industria
Stefano
E qua viene il punto, perché tu dici giustamente, no, l’elemento tossico della Silicon Valley. Ma il fatto è che per come sono fatti i coding agent, quelli da riga di comando soprattutto, ne parlavamo con Antonello l’ultima puntata di come la nostra generazione abbia portato la gamification all’interno dell’industria. Queste hanno portato la gamification all’interno del coding perché c’è proprio il meccanismo di reward. Tu descrivi una cosa e la vedi succedere, magari non sempre esattamente, quindi hai voglia di fare l’improvement e sei sempre lì a ciclare su questa cosa perché sai che arriverà.
Mentre paradossalmente, quando scrivi codice di tuo, ma adesso per gli ascoltatori magari che non scrivono codice, magari PM o anche non tecnici, quando scrivi una mail ti devi mettere lì, pensare, o un documento, mettere lì, pensare. E quindi il tipo di reward, il tipo di soddisfazione che hai è man mano che la mail si costruisce, è un processo più lento.
Qui la reward è scriverne tante di mail, per fare il paragone con la mail, e quindi sei sempre lì che cicli e diventa davvero difficile staccarsi, anche senza avere la pressione della Silicon Valley, nei side project che faccio la sera, che è poi quello che diceva anche Paolo.
Paolo
Sì, sì, esatto. Ci sarebbe da decidere se vuoi citare o spoilerare il riferimento che arriva sempre dall’articolo di AI Vampires su come questo modello sembra che si avvicini a quello del gioco d’azzardo.
Stefano
Sì. Ne parlavo in pre-intervista con una persona che intervisterò a breve, che me l’ha citato, me l’ha ricordato lui, quindi gli diamo la paternità di questa cosa. Di solito non spoilero le interviste, ma ormai siamo qua. Intervisteremo a breve Gabriele Venturi.
Paolo
Io l’ho presa larga. Tu potevi uscire da questa trappola, invece ci sei cascato dentro.
Stefano
No, tu mi tendi le trappole, io sono bravo a cadere nelle trappole, lo sai. E quindi l’hai fatto apposta. Perché dovete sapere che Paolo non è d’accordo con me sul fatto che non spoilero le interviste. Allora, in tutti i modi sta cercando di convincermi del contrario, compreso l’inganno. Però io sono facile da ingannare, quindi. No, comunque mi ricordava questa cosa per tornare. Magari nessuno, immagino che il nostro ascoltatore medio sappia chi è Gabriele Venturi, ma se non lo sapete ascoltate l’intervista che arriverà, non so dirvi quando ma arriverà.
Alessio
Presto lo scoprirete.
Paolo
Sono un whistleblower. Whistlebrother.
[12:34] Riferimenti al Gioco d’Azzardo e AI
Stefano
No, mi ricordava proprio questa cosa qua di cui poi abbiamo parlato in settimana. C’è proprio un paper di ricerca su questa cosa, su quanto assomiglia al gioco d’azzardo, in particolare alle slot machine. Perché ci sono due meccanismi in questa cosa. Il primo è quello del “schiaccio invio per andare avanti” che è tipico proprio, no, delle slot machine, quando schiacci i bottoni per continuare. Quindi ti tiene collegato a questa cosa. E la seconda cosa è proprio l’indeterminismo intrinseco dell’AI, per cui tu hai un risultato che però a volte ti soddisfa, a volte no, e hai sempre la volontà, anche quando ti soddisfa ma non pienamente, di migliorarlo, che è un po’ come vinco un po’ di monetine e le rigioco perché spero di vincere di più. Il meccanismo con cui viene fatto il paragone è questo. Poi io non so se sono stati costruiti per questo motivo o se è un effetto collaterale. Io voglio pensare che sia un effetto collaterale.
Alessio
Sicuramente.
Paolo
La teoria vorrebbe che è un effetto collaterale perché se tu fossi bravo ad usare lo strumento vinceresti sempre. In realtà, quando stai facendo vibe coding puro su progetti come il mio in cui non padroneggio la tecnologia target, metà dei miei prompt sono “mi sento fortunato”.
Alessio
Io non voglio essere autoreferenziale, ma vi dico che tutte queste cose sono la lampada di Aladino. Voi sapete perché. Tu descrivi l’idea che hai, ma volente o nolente ti scappa qualcosa e finisce che la lampada ti tira fuori la soluzione che però ha qualche difettuccio perché tu non sei stato bravissimo a descrivere il problema e poi devi lavorarci, diciamo.
Stefano
E poi ti desideri di migliorare.
Paolo
Bella, non l’avevo mai capito. Sai, forse l’avevi anche proposto per scegliere il nome di questo podcast a suo tempo, ma non l’avevo colto. Mi scuso.
Stefano
No, però questa è una notizia che non so se Paolo ha già letto, ma che… vai, dimmi. Finisci, scusa.
[15:08] Ottimizzazione e Automazione nel Coding
Paolo
Volevo finire l’excursus della scimmia e della tossicità di questa cosa perché si aggancia comunque a delle news che vale la pena citare. Stefano diceva che lui ha deciso di andare in direzione velocità, non aveva tempo di aspettare. Io in realtà il tempo di aspettare ce l’ho, nel senso che mi aiuta che ogni tanto vada lento così posso smettere di concentrarmi su quella singola attività, staccare la testa dallo schermo e anziché vivere la mia vita, fare un’altra attività sullo schermo. Mi aiuta, mi forza il multitasking, l’attesa praticamente, che è una proprietà più che un bug per quello che serve a me.
Qual è lo svantaggio di questa cosa però? Che alcuni dei task che lancio di programmazione, in particolare su questo progetto in cui di tanto in tanto devo lanciare dei benchmark per scoprire se troverà mai una soluzione al mio problema oppure no, per la natura stessa di questi problemi NP-complessi, per cui non c’è un algoritmo noto in un tempo finito, quindi devo lanciarlo e vedere come va e in particolare vedere se la soluzione migliora o se a un certo punto si incastra e non va più avanti di così. E sono job lenti. Molte volte passavo del tempo lì a guardare, un po’ come quando avevamo il 56k e scaricavamo gli MP3.
Alessio
Ma perché sono delle euristiche.
Paolo
Sì, sì. E quando avevamo il 56k passavamo il tempo a guardare la barra di completamento che ti diceva “ci mancano 30 secondi, 50.000 anni, 30 secondi”, quelle cose classiche di Windows. E niente, ed era tempo un po’ perso e quindi ho cercato di capire cosa potevo fare per migliorare questa faccenda.
Una delle prime ottimizzazioni, ma non è quella di cui andrò a parlare adesso, è quella di rimuovere l’umano dal loop quanto più possibile. Quindi, anziché dover schiacciare quegli “yes” per dire “vai avanti, posso leggere questo file, posso provare questo”, ho cercato di fornire al mio agente di coding locale dei sotto-strumenti che lui poteva utilizzare che erano già permessi da me, quindi non doveva chiedere il mio permesso. E quello ok, è stato utile, quindi non ero più io il collo di bottiglia. Il collo di bottiglia però è l’attività stessa, quindi questi servizi lenti.
Cosa ho potuto fare in questa direzione? Qui arrivano le storie di Stefano e del suo modello OpenClaw che gira e sta prendendo una laurea su internet o qualcosa del genere. La cosa di cui ero più invidioso era l’integrazione con Telegram, WhatsApp, non lo so, al punto che mi chiedevo “ma ne vale la pena installare il demonio sul computer per fare questa cosa oppure no?” E poi ho pensato “ma no dai, probabilmente posso semplicemente rubare la funzionalità”. Vado da Gemini o da qualche modello e dico “senti, devo reimplementare la possibilità di controllare il mio Claude da remoto”. Però visto che siamo nel 2026, non sarò mica l’unico ad aver avuto questa idea. Ho guardato GitHub, pieno di progetti che fanno questa cosa. Me ne ha suggeriti 2-3, uno di questi tre sembrava quello minimale che faceva poche cose. L’ho guardato e ho detto “bene, lo installo”. Poi mi sono fermato un istante, ho detto “forse non è una buona idea comunque laddove non mi fido di OpenClaw, fidarmi di un altro random progetto su internet”.
Quindi che cosa ho fatto? Ho chiesto al modello stesso, a Claude stesso, “senti, stavo per installare sta roba, ma forse è meglio che prima mi guardi se non fa delle cose losche”. Quindi ho chiesto a Claude di dirmi se quel progetto era fidato. Lui ha fatto una piccola analisi e mi ha detto di sì. Siccome non gli voglio credere, gli ho chiesto di farne una più approfondita, quindi ho fatto un deep research. Lui l’ha fatto per bene, ha guardato, mi ha detto “sì, c’è qualche libreria vecchia, ma normale, niente di strano”. E soprattutto lo sviluppatore ha una presenza online, quindi in teoria è una persona vera. It’s not a robot or a troll, poi fino a un certo punto. Ora, questa non è una garanzia che non ci siano problemi col progetto che ho scelto. Ad ogni modo, ho fatto le mie verifiche pigre, diciamo, per verificare che il progetto funzionasse.
Alessio
Due diligence.
[20:14] Integrazione di AI e Strumenti di Lavoro
Paolo
A questo punto l’ho preso, l’ho lanciato e non sono riuscito a farlo andare. Perché non sono riuscito a farlo andare? Perché lui assumeva che io usassi Claude Code, quando io in realtà nel mio setup non uso Claude Code ma uso un clone di Claude Code che mi tiene separata la configurazione. E quindi non andava. Che palle! E quindi che cosa fai? Quello che si fa di questi tempi. Chiedi a Claude Code, “senti Claude Code, mi fixi questa cosa? Perché io non uso Claude Code, uso una variante.” Fa “certo, non c’è problema.” Me l’ha fixato e funzionava. Ho detto wow!
A questo punto ho detto “cosa faccio, me lo tengo per me?” No, non tenermelo per me. “Claude Code, per favore, crea un task sul progetto originale da cui arrivo dicendogli che non funziona in questi setup.” Lui me l’ha creato. Io ho rivisto la definizione dell’issue perché volevo evitare di sbattere in faccia un eventuale AI slop allo sviluppatore di questo progetto che mi è stato utile. Quindi il minimo che potevo fare era verificare a mano di non dirgli cazzate e infatti Claude Code non aveva fatto un lavoro perfettissimo a spiegare il contesto, quindi ho corretto quello, però gli ho aperto l’issue. Dopo che gli ho aperto l’issue, gli ho aperto la PR. Gli ho aperto, ha fatto tutto Claude. Io sapevo che cosa volevo, lui ha fatto la fatica.
Però pensateci, sono passato da una funzionalità che volevo, l’ho trovata, non funzionava. Il codice, la gente me l’ha fixata e ha fatto anche la parte di contribuirla indietro. La PR è stata mergiata, peraltro, anche relativamente in fretta, ma io avrei vissuto anche se non succedeva mai con il mio fork.
E niente, e quindi io adesso ho la possibilità di controllare Claude tramite Telegram. Sono contentissimo innanzitutto perché mi permette di poter mandare avanti le cose lente. Ogni tanto guardo, funziona molto meglio di quanto avrei mai potuto immaginare la UX. Davvero, pensavo che sarebbe stato impossibile, invece funziona. Ovviamente funziona meglio per alcune cose, tipo il mio progetto ha una parte di interfaccia web, quella parte ora come ora non la sto controllando. Non che non potrei, ma non sto esponendo il web a essere accessibile da remoto, quindi in realtà non lo sto vedendo. Quindi funziona meglio per il backend, se volete, ma di per sé posso farlo.
E quindi io adesso, mentre aspetto mia figlia che esce a scuola o vado al bar, oltre che guardare e fare altre cose, guardo la chat di Telegram e vedo che c’è il bot che ha finito questa roba e gli dico “senti, fai questo, fai quest’altro”. E se alcune di queste attività pensate che richiedono un’interazione attiva, è vero, alcune, non tutte le attività di sviluppo con Claude Code puoi fare dal telefono perché devi dargli un feedback, devi leggere attentamente, ma molte altre sì. Ricerca, verifica stessa della tua coda delle attività, per la quale ho iniziato ad usare Backlog.
Stamattina ad esempio gli ho fatto backlog grooming di tutte le mie attività, una roba che di solito odio fare, l’ho fatta tranquillamente dal telefono mentre ero a letto. Gli ho detto “senti, prova a controllare se abbiamo delle cose che sono marcate come da fare ma in realtà le abbiamo già fatte, ci siamo dimenticati”. E lui mi ha fatto tutte queste cose, ha effettivamente risparmiato ore di stare davanti al laptop in maniera tradizionale per fare tutte queste attività.
Io sono contentissimo di questa cosa. Sto spammando tutti i miei amici dicendo “guardate che si può fare questa roba, è facile”. Potrebbe essere l’inizio di un problema ancora più consistente di addiction, ma la comodità è assolutamente lì. E perché vi faccio tutto sto pippone? Perché questa settimana Anthropic ha ufficialmente rilasciato la stessa funzionalità.
[22:37] Rilascio di Nuove Funzionalità da Parte di Anthropic
Stefano
Via web, però. Via web, non via chat.
Paolo
Scusate, il sistema ha rilasciato la stessa funzionalità, ha rilasciato la stessa UX, l’app mobile per fare sessioni long running di Claude Code. La versione fatta in Telegram è più casereccia, open source, se volete. La versione loro è più servizio che paghi, però diciamo che hanno validato la UX. Probabilmente il merito di questo va a Pete di OpenClaw che è il primo che ci ha fatto vedere che poteva essere una buona idea.
Stefano
No, no, però allora l’ho guardata, è un po’ diverso il concetto, nel senso che a me piace di più la versione tua, OpenClaw style, cioè che si interfacci con il tuo Claude Code eccetera. Quella che hanno rilasciato in Anthropic è molto simile a quello che fa Codex di OpenAI, quindi è un’istanza web di Claude Code che si clona il tuo repo e vive su un AWS, su un cloud da qualche parte, ma non è quella del tuo computer, che sia VPS che sia il computer vero. Mentre invece quello che fai tu è quella cosa lì.
E perché a me piace di più? Perché volendo poi dopo lì è dove metti il taglio della tua sicurezza, gli dai accesso a tante cose sul tuo computer, i tuoi file eccetera eccetera. Infatti non escludo di provare a mettere la stessa cosa che hai tu e Claude Code sul VPS che ho, spegnendo OpenClaw un attimo.
[23:48] Sicurezza e Memoria nel Cloud
Stefano
Però Anthropic ha riconosciuto la validità dell’idea di OpenClaw decisamente perché ha aggiunto l’altra funzionalità ed era la notizia che non so se hai ancora letto perché è di stanotte e credo che potrebbe farti molto piacere sapere che esiste. Hanno aggiunto la memoria di lungo termine su Claude Code, che è esattamente l’altra cosa che ha OpenClaw.
Si sono fatti delle belle pippe, nel senso che hanno fatto una cosa seria ed evoluta. Hanno messo insieme il concetto di Claude MD, rendendolo però gerarchico, per cui tu puoi avere un Claude MD per ogni componente del tuo progetto. Per cui ad esempio se hai una parte di interfaccia web e una parte di backend, puoi avere dei Claude MD diversi o che completano il Claude MD di base nello stile di programmazione, nel tipo di linguaggio che usi eccetera eccetera. Hanno aggiunto tutta una serie di rules, come le chiamano loro, che assomigliano moltissimo a quelle che erano le Cursor rules di Cursor. E in più hanno aggiunto il Memory MD dove Claude, esattamente come fa OpenClaw, durante la sessione capisce quali sono le cose rilevanti e se le sintetizza lui nel Memory MD.
Paolo
Non ti voglio sputtanare, ma io sto usando da tre giorni sta roba, almeno. Non so che dirti perché Memory MD lo sto letteralmente usando da un po’. Rules…
Stefano
L’annuncio su X di Anthropic è di stanotte, 12 ore fa. No, no, Memory MD c’era già ma lo dovevi editare tu o gli dovevi dire di memorizzare con slash memory. Adesso c’è l’auto memory che vuol dire che lui durante la sessione si accorge di che cosa stai facendo e si sintetizza le cose fondamentali da mettersi nel Memory MD. È quello che hanno annunciato stanotte, l’auto memory.
Paolo
Ok, perché…
Stefano
Le rules, no, hai ragione. Rules e Memory MD è una settimana, dieci giorni che le hanno introdotte.
Paolo
Infatti le rules le sto usando da questa settimana e mi chiedevo “ma ci sono sempre state e non me le ero sempre perse?” perché sono comode.
Stefano
No, no. È dalla 2.158, è dalla 2.159, che è quella di stanotte, che c’è l’auto memory.
[26:22] Innovazioni di Claude Code
Paolo
Ok. In compenso, problema concreto. Tutta questa memoria il contesto te lo mangia. Giusto ieri stavo guardando che io quando inizio un’attività mi brucio un 25% di contesto tutte le volte e ho detto “perché?”
Stefano
Quelle sono gli MCP anche.
Paolo
Sì, in teoria sì, però ho lanciato Context per vedere che cosa c’era dentro e ti fa lo spaccato. E il mio spaccato, adesso vabbè, una curiosità, lo citiamo in podcast, magari qualcun altro ci va dentro a guardare e scopre. Era che la maggior parte che sprecavo di contesto non erano gli MCP Tools, con mia sorpresa, ma erano la collezione di Markdown files che io ho creato, in particolare quelli sotto la cartella /Claude Docs, l’equivalente delle memorie a lungo termine dei poveri, prima che Anthropic ci desse questo nuovo meccanismo che ho scoperto questa settimana. A quanto pare sono sempre lì e io alcune di quelle…
Stefano
Sì. Lui se li legge, i Claude Docs, lui se li rilegge tutte le volte. Mentre il Memory no, il Memory l’hanno impostato in maniera simile alle skill. Hanno un descriptor della memoria e si legge solo quello che serve quando serve.
Paolo
È solo che è un’implementazione con un indice praticamente.
Alessio
C’è tipo che quando arriva in una situazione in cui si chiede cosa fare, dice “vediamo un po’ qual è la linea guida del progetto”.
Stefano
Sì, corretto. Se ho qualcosa, se l’ho già fatta questa cosa in buona sostanza. Perché tipo si ricorda sessioni di debug, cose di questo genere. Tiene l’auto memory, quindi se trova bug simili o behavior simili cerca di non reinventarsi la ruota, ma di capire cosa ha fatto e che cosa ha funzionato.
Alessio
Va a vedere alla fine tutto il ragionamento come ne è uscito.
Stefano
Sì. L’esperienza di chi lo usa è che magari gli chiedete di fissare una cosa, lui fa un tentativo, non va a buon fine, ne fa un altro, alla fine ci riesce. Invece di fare questi tre tentativi, sa già che il tentativo buono è fatto in quel modo ed è il primo che prova, quantomeno. Poi se non va in quella situazione ricomincia a tentare, ma…
[29:18] Funzionalità di OpenClaw
Stefano
E quindi quella lì è un’altra funzionalità tipica di OpenClaw. Quello che manca ma che è facile da implementare è di svegliarlo, di svegliarlo ogni tot da solo con un elenco di cose da fare. Tutto sommato con Backlog già più o meno lo potresti fare. Cioè, tu metti un cron ogni 10 minuti e nel prompt gli fai i prossimi due task che hai di Backlog, lui lo fa e hai ottenuto più o meno OpenClaw.
Poi dopo, un altro discorso sono le estensioni, tutte le skill che ti puoi scaricare. Perché in realtà dove c’è la parte di pericolo, di sicurezza soprattutto, è nell’installare qualunque cosa. E OpenClaw per scelta, loro hanno fatto questa scelta, ha una grande facilità di estenderlo per le skill. Ha proprio un repository che si chiama ClawHub, di skill, di cose che puoi installare, e lo puoi fare direttamente lui se glielo chiedi, di auto-installarsi le cose. E questa è la parte di pericolo.
Però i componenti fondamentali che erano quei tre lì, l’interfaccia diciamo remota in qualche modo, la memoria e lo svegliarsi ogni tanto, 2 su 3 li hanno riconosciuti come “ok, lo facciamo anche noi”, che è in qualche modo una validazione che l’idea di base non era una minchiata.
Paolo
Come vi annunciavo privatamente, nella mia to-do list il prossimo step è da supportare i messaggi vocali perché ogni tanto mi accorgo che mi perdo un po’ a scrivere, mi farebbe comodo lanciargli una nota breve a voce. Questa cosa il mio setup non ce l’ha. Probabilmente farò girare un modello locale tipo Whisper o Parakeet per convertire e lo farò.
E questo mi ha ricordato peraltro che uno dei tanti problemi personali che adesso il micro-software ci permette di risolvere è che odiando i messaggi vocali di WhatsApp mi ha sempre dato noia che li devo ascoltare, non posso leggerli, e adesso lavorerò a scrivermi un convertitore di messaggi vocali in testuali completamente privato, deployato. Probabilmente proverò a usare i modelli Gemma di Android per farlo girare come app custom Android. Era la cosa a cui stavo lavorando stamattina al bar.
Alessio
Avvisami quando lo fai.
Stefano
Sì, no, è molto comodo effettivamente.
[31:43] Rilasci di Modelli e Aggiornamenti
Alessio
Adesso io però non vorrei dire, abbiamo un elenco di rilasci di modelli nuovi che sono usciti in queste settimane che per quanto faccia un po’ la lista della spesa inizia ad essere imbarazzante da ignorare. Potremmo magari fare un excursus.
Stefano
Sì, sì. Io intanto ricordo a chi preferisce leggere che io quell’elenco lì lo faccio in newsletter tutte le settimane, se volete. Però hai ragione, e partiamo dalla fine allora, visto che tu ci punzecchi e tu ti pigli la pagliuzza più corta. È uscito Nano Banana 2.
Alessio
Ecco, è uscito Nano Banana 2 proprio a brevissimo. Io ho fatto qualche prova e per il momento posso solo dirvi che le immagini che genero sono molto belle.
Paolo
Funzionava prima, funziona adesso, commento di quando è uscito Gemini 3.
Alessio
Sì, esatto. Due commenti così. Uno di impressione molto personale: ho provato a generare qualche immagine di soggetti umani e la primissima sensazione così a pelle è “ma questo è un Nano Banana 2 o una versione nuova di Grok?” Però vediamo, non so chi ha usato Grok, magari capisce cosa intendo.
Stefano
Io non ho capito, spiegamelo.
Paolo
Ce l’abbiamo nella macchina noi.
Alessio
Ma nella macchina non genera le immagini comunque. No, vabbè, ma a parte quello. Era tanto che non uscivano aggiornamenti sulla generazione di immagini da parte di Google, da quando è uscito il Nano Banana Pro. C’erano stati ultimamente degli altri rilasci di modelli open weight, quindi bene.
Stefano
Sì.
Alessio
Si inserisce all’interno del rilascio più grosso di Gemini 3.1 Pro. Ribadisco, molto fresco, non l’ho ancora guardato bene. Però in realtà quello di cui volevo parlare io, Stefano, era anche di tutti gli altri. Di GLM 5, di Quen 3.5, di Sonnet 4.6, GPT 5.3, Codex Sparks, Minimax 2.5, l’hai citato tu prima. Tutto questo per dire che intanto si nota una velocità, cioè è aumentato il ritmo dei rilasci, se vuoi. Tra l’ultimo state of the art di ognuno dei vendor principali e quello successivo, la sensazione che i tempi tra un rilascio e l’altro si siano accorciati. Non so se anche tu hai questa sensazione.
Stefano
Sì, l’esponenziale rimane, sì.
Alessio
E poi c’è tutto un discorso di benchmarking. Ci ragionavo giusto l’altra sera. Inizia a diventare anche difficile capire come spiegare all’utente “ok, questo modello che è uscito è meglio di quello che c’era prima”. Per i modelli open weight ho visto che la tendenza è quella di dire “ok, questo modello rispetto allo state of the art dei modelli closed source si posiziona più o meno qua”, come dire “siamo quasi, per dire, al livello di Opus 4.5 piuttosto che Opus 4.6”. Invece sugli altri il problema è che i benchmark non sempre sono significativi, ma non ti danno davvero l’idea di quanto sia migliorato un modello rispetto ai precedenti.
Paolo
Scusami Alessio, era un po’ quello che ci chiedevamo tra di noi in queste settimane quando era arrivato l’annuncio di Gemini 3.1. Che citiamo lui perché è più facile che le persone l’abbiano incrociato essendo di Google, e ci chiedevamo “ma che cosa fa di diverso?” E Stefano ci spiegava e per quanto sia, adesso glielo faccio ripetere, ma per quanto sia interessante il dubbio era sempre “boh, ok, cioè quanto mi impatta direttamente come persona?” Stefano, scusa, ricordaci cosa fa 3.1 rispetto a 3 che era già ottimissimo.
[36:44] Benchmarking e Performance dei Modelli
Stefano
Allora, 3 era già pazzesco e sui benchmark è migliorato tantissimo, cioè 3.1. Ne cito uno perché è quello che mi ricordo, ARC-AGI 2, che è un benchmark relativamente nuovo.
Alessio
È un benchmark relativamente nuovo, tra l’altro.
Stefano
ARC-AGI 2, che dovrebbe testare la capacità AGI del modello, cioè la capacità di essere meglio della media dell’uomo sulle varie attività. 3.0 era stato salutato come incredibile perché faceva il 48%, 46%, rispetto ad un ChatGPT che faceva 37%, per intenderci, no? Ecco, 3.1 fa 86%, che è quasi il doppio.
Paolo
Prima non era promosso, adesso è promosso.
Stefano
Tanto che, tanto che hanno dovuto fare ARC-AGI 3, perché così non ha più senso, è a tappo. Ed è uscito ARC-AGI 3 e se vuoi, sulla velocità dei modelli che dicevamo prima con Alessio, è incredibile anche, sono andato a vedere questo dato qua per preparare la puntata, la velocità di rilascio dei benchmark anche. Cioè, non ci stanno dietro con i benchmark. Anche la velocità di rilascio dei benchmark è accelerata, per forza, perché li mandano a tappo.
Alessio
Che comunque devi pensare a dei test che siano sufficientemente challenging, ma non tra virgolette fuori dal mondo, perché deve essere come dire progressiva la capacità di passare, di migliorare eccetera.
Stefano
E gli altri dati impressionanti, quelli li vediamo anche su Opus 4.6 e su Kimi K2.5, che è uno degli altri da citare come rilasci, è la capacità di andare multi-agente con il sub-agent nativo e fare compiti estremamente lunghi. Cioè, Codex è arrivato a 28 ore di compito svolto correttamente. Ti do il prompt, diciamo il contesto, “fai questa cosa” e 28 ore dopo è arrivato con il risultato corretto, senza altra interazione umana.
Alessio
Sì.
Stefano
Questo qui è l’altro dato a cui si fa molta attenzione in questo momento, la capacità di svolgere compiti lunghi e complessi e magari di parallelizzare. Tipo, Kimi ha spinto tantissimo con il 2.5 su quella roba qua, hanno avuto un miglioramento pazzesco da quel punto di vista. E anche Minimax, anche se io non l’ho provato su Minimax.
Alessio
I leitmotiv che ho visto in questo giro di rilasci sono: uno, la tendenza ad allinearsi su un nuovo standard di un milione di token come dimensione della finestra del contesto, che più o meno tutti, non tutti, però vabbè, Gemini 3.1 Pro, Quen 3.5, insomma, adesso è la nuova…
Stefano
Opus 4.6.
Alessio
Esatto. È il nuovo, diciamo, nuovo target: un milione di contesto. E poi l’altra cosa è specializzazioni, reinforcement learning, training eccetera, specifici per il coding, quasi tutti. Che vabbè, l’abbiamo già detto altre volte, ci sta perché è l’ambito all’interno del quale si stanno vedendo soprattutto i risultati, perché è tra virgolette facile, perché è ben verificabile eccetera, però…
Stefano
Ed è quello che ha più impatto anche.
Alessio
Esatto. Anche perché ti serve per sviluppare nuovi modelli e quindi di conseguenza…
[41:04] Ottimizzazione e Inferenza Locale
Stefano
O nuovi software. Cioè quello che in questo momento ha più impatto perché essendo i modelli confinati nell’ambito virtuale, passatemi il termine, nel cloud eccetera, le due cose che hanno più impatto è se riesci a migliorare il workflow di lavoro di una persona, ma ancora di più se riesci a scrivere codice o progetti effimeri anche che vadano in quella direzione.
Infatti c’è un post di CloudFlare su X di questi giorni, che adesso non ho sottomano ma l’ho letto, che riprende una vecchia idea di Hugging Face con un progetto che si chiama SmallAgent, con cui avevo giocato e contribuito un po’ tempo fa. È quello che invece di generare chiamate API o MCP, genera codice e lo fa eseguire al volo ai modelli. Questa cosa ovviamente è interessante perché il codice è più espressivo di una semplice API. Banalmente ci puoi mettere i for e gli if nel codice e concatenare più cose.
Però ci dice anche che i modelli stanno diventando abbastanza maturi a generare il codice, almeno piccole porzioni di codice, in maniera così affidabile che molti, anche Opus fa questa cosa, molti stanno cominciando a dire “va bene, l’estensione del modello oltre la reasoning è auto-scriversi del codice per risolvere sotto-parti del problema in maniera deterministica”. E questo potrebbe essere un ulteriore salto interessante.
Alessio
Invece un’altra cosa che ho notato, che iniziano a vedersi anche dei tentativi per i modelli open weight, chiaramente, di esplicitare e di conseguenza tendere a ridurre quanto impatti la quantizzazione sui modelli o l’utilizzo di Mixture of Experts, diciamo un attimo, aggressivi, sul risultato finale, sulla qualità dei risultati ottenuti con l’inferenza.
E mi riferisco ad esempio a Quen 3.5, che nel suo rilascio in realtà ha rilasciato un gruppo di modelli, non solo uno, con dimensioni varie da 400 billion fino a scendere a 27, con Mixture of Expert diversi che scendono a 17, a 10, a 3 miliardi di esperti. E ha fatto i benchmark con tutte queste versioni, ha fatto vedere quanto perde il modello man mano che lo tagli e lo fai diventare più piccolino. Come di nuovo dimostrare che la frontiera è anche nel cercare di ottimizzare la riduzione delle dimensioni per poter ottenere ancora dei risultati accettabili anche con risorse più basse.
Stefano
Perché credo che gli open weight stiano scegliendo come target, a tendere man mano che i computer diventano più potenti, l’inferenza locale e quindi per loro è interessante andare a ridurre le dimensioni. Mentre invece gli state of the art delle big tech al momento sono focalizzati e dichiaratamente a raggiungere l’AGI perché così fanno scopa.
Alessio
Sì, sì, no matter what, esatto. Sì, sì, assolutamente.
Stefano
Lasciami fare una digressione tecnica che ha a che fare anche con questa cosa, ma che magari qualche utente si potrebbe chiedere e pensare che le big tech stiano cercando soltanto di fare più soldi con questa manovra. In realtà ci sono delle giustificazioni. E qual è la manovra? Scusate, non ho messo il soggetto. Vi sarete accorti che tutti vanno verso un milione di token, ma sopra i 200k i token costano molto di più. Cioè hanno un pricing fino a che usi il contesto piccolo e c’è un pricing diverso se usi il contesto grande e uno dice “vabbè, ok, vuoi farmi pagare di più perché voglio fare di più?” Sì, magari una parte di verità è questa.
Alessio
Beh, costa anche molto di più poi fare l’inferenza con i contesti pieni.
[46:44] La Complessità dei Contesti Lunghi
Stefano
No, non solo costa di più fare l’inferenza con contesti pieni, ma è proprio quello che volevo spiegare. Il contesto va a finire in una memoria, una cache che si chiama KV Cache. Ne abbiamo parlato nella puntata domande e risposte che abbiamo fatto tanto tempo fa, se volete andate a pescare. Qua dico soltanto in maniera intuitiva, cioè il problema è che la quantità di memoria utilizzata non scala in modo lineare alla quantità di token che metti nel contesto. Non è neanche esponenziale, una curva un pochino piegata, diciamo.
Paolo
Barzotta si dice.
Stefano
Perché il problema della KV Cache, che cosa fa con i contesti lunghi? Deve mantenere il contesto, appunto, delle singole parole con quelle precedenti, ma siccome il collegamento delle parole correnti esplode non soltanto perché il contesto indietro è più lungo, ma perché il contesto dietro è più ramificato e potresti avere più collegamenti con un numero più alto di parole precedenti. Perché magari hai detto “ancora” e “ancora” ha il legame con un sacco di roba.
Questa cosa qua fa scalare la dimensione della RAM in maniera non lineare, ma più che lineare, rispetto alla dimensione del contesto. Quindi per contesti grandi il costo anche per chi fa inferenza aumenta molto e quindi te lo fanno pagare. Chiusa la parentesi tecnica, ma giusto per capire anche che c’è una complessità dietro diversa da quella a cui siamo abituati. Cioè noi siamo abituati a “prendo più RAM, ho RAM X, prenderò il doppio e sarà X per 2”. In realtà non serve il doppio della RAM, serve tre volte circa la RAM per fare il doppio del contesto.
[48:13] Modelli di AI: Minimax e GLM
Stefano
Ok. E dunque io cosa ho provato? Ecco, parliamo di questi modelli nuovi che sono usciti. Io ho provato Minimax M2.5 e GLM 5. Di GLM c’è anche il paper che è super interessante, soprattutto nella parte di training perché prendono molte delle idee che c’erano in DeepSeek R2 e le estendono sulla parte di training. Non mi ci addentro qua, se avete voglia andatevelo a leggere, però, perché c’è sia il paper che il loro blog, diciamo, più divulgativo, che si capisce molto bene.
Allora, i modelli vanno distinti un po’ in due modi. Le risposte. Una è la qualità della risposta, ma c’è anche un discorso di consistenza delle risposte.
[49:32] Consistenza e Qualità delle Risposte
Alessio
Spieghiamo cosa si intende per consistenza, magari. Spiegalo. No, no, spiega tu, spiega tu.
Stefano
Ah, spiego io. No, beh, consistenza delle risposte: che a stessa domanda ottengo una risposta che ci si avvicini molto. Banalizzando molto, se non la stessa, la stessa è impossibile perché c’è l’indeterminismo, ma se faccio due domande uguali con lo stesso contesto mi aspetto che le due risposte siano simili o indistinguibili nella versione ideale.
Alessio
Se vuoi, non è sufficiente che il modello ti risponda giusto una volta sola, deve risponderti sempre la stessa cosa.
Stefano
Detto in altri termini, sì, certo, non deve rispondere sempre sbagliato, sennò è una consistenza brutta. Mentre invece la qualità della risposta, parlando di coding, visto che io li ho provati per coding, è che il codice generato sia di buona qualità, faccia quello che gli è stato chiesto eccetera eccetera.
Allora, sulla qualità, diciamo che del caso migliore sono paragonabili e guardando i benchmark si avvicinano molto tutti e due a Opus 4.5, quindi la versione precedente di Opus. Sulla consistenza, GLM è molto molto meglio, anche guardando dati in giro, ma anche nella sensazione che ne hai nell’utilizzarlo.
[51:12] Velocità e Performance dei Modelli
Stefano
Poi c’è un terzo parametro ed è la velocità e Minimax è di una velocità spaventosa. È più veloce di Sonnet. È velocissimo a rispondere e quindi la fase di reward che ho io dalla mia slot machine è velocissima e quindi continuo a cliccare come un…
Paolo
Stavo pensando, in questi giorni stavo capendo, ho scoperto, anzi parliamone in live. Ho scoperto, perché me l’ha detto Claude Code, ultimamente le cose le scopro da lui principalmente, che quando usi subagent in Claude Code, lui per i subagent sceglie Haiku, quello che è configurato come Haiku per fare le attività.
Stefano
Sempre?
Paolo
Non lo so, non ho verificato, però lui mi ha detto questa cosa, diciamo che indipendentemente se sia completamente vera oppure no, era interessante ed era plausibile e mi faceva ragionare e diceva “ok, quindi forse allora non sono sempre così contento di demandare i subagent perché Haiku ha comunque delle capacità limitate e quindi va bene quando lo si manda sui binari, ma se si esce dai binari forse non è una buona idea.”
[52:35] Utilizzo dei Subagents e Ottimizzazione
Paolo
E allora stavo dicendo, ne parlavo con degli amici, gli dicevo “ho scoperto questa cosa, forse smetterò di usare un pochettino i subagent”, timorito da questa cosa. E qualcuno di loro giustamente mi ha detto “ma non puoi cambiare le carte in tavola, non puoi rimappare Haiku a quello che vuoi tu?” E sì, quello è stato possibile. Non ci avevo pensato io. E quindi adesso che tu Stefano parlavi di queste cose, stavo dicendo “perché non provi a giocare con questa cosa? Perché non rimappi il tuo Haiku a Minimax e vedi se ti dà delle risposte velocissime per delle cose più, diciamo, che non richiedono super intelligenza, e usi il tuo modellone principale per quelle altre?”
Stefano
No, questa è un’idea interessante molto ed è una delle cose che volevo provare.
Alessio
Invece ho una domanda filosofica, nel senso che noi stiamo parlando di velocità, che poi bisognerebbe distinguere tra velocità nel processare il prompt e velocità nel generarti la risposta. Una cosa, cioè ci sono se vuoi due modi di utilizzare questi coding agent: uno è tra virgolette in puro vibe coding, chiedo, quando mi è arrivato il risultato passo allo step dopo eccetera, oppure sto lì e leggo anche tutto il reasoning che il modello sta facendo nel darmi la risposta, che se vuoi ha anche un aspetto di formazione, di learning, non so come dire. Il fatto che il modello sia più veloce, che tu magari non fai neanche in tempo a leggerti tutto il suo flusso e te lo devi guardare dopo, ha una sua rilevanza per voi o cosa?
[53:39] Velocità vs Accuratezza nel Coding
Stefano
Dipende come lo usi, cioè nel senso che io il Ctrl+O lo schiaccio raramente. Ctrl+O è per vedere tutta la parte di reasoning perché di default ormai Claude Code ce l’ha disabilitata e compressa. Dipende. Il plan lo leggo, ma una volta che sono contento dal plan che lui faccia il tentativo, “no cazzo, non sono riuscito, non passa il test, faccio quel…” No! Cioè solo quando non c’ho niente da fare, voglio giudicare. È come guardare Twitch, non so.
Paolo
Io vi dico la verità, io lo leggo ed è come guardare Twitch, esattamente. Ma lo leggo perché non devo schiacciare Ctrl+O. Il mio alternativo di Claude Code che uso lo tiene aperto in automatico, tant’è che mi è successa una cosa curiosa che ci stava nella storia precedente. Sono stato bloccato dopo essere riuscito ad aumentare la mia produttività mettendomi Claude Code su Telegram, sono stato bloccato dall’ulteriore vincolo che ho colpito i limiti di messaggi di Telegram. Generavo talmente troppi messaggi col mio Claude Code che quindi mi ha cappato Telegram stesso.
Perché mi ha cappato Telegram stesso? Probabilmente perché io stavo facendo questa cosa: su Telegram ricevevo anche tutti i reasoning. E sono molto interessanti, soprattutto se non sai cosa stai facendo come nel caso del mio progetto. Cioè impari man mano che vai, alcune cose ovviamente sono lui che cerca un concetto, scopre che era nell’altra classe, cioè chi se ne frega. Altre volte invece lui si rispiega le cose da solo e dice “allora facciamo così, cosà per via di questi motivi”. Ed è molto interessante.
Curiosità ulteriore. Ho beccato, leggendo tutti questi log di esecuzione, che deve esserci o qualche errore oppure lui racconta male la storia perché ogni tanto non trova dei file e nella stessa frase dice “il file che dovrei guardare è quest’altro che ha esattamente lo stesso nome”. Quindi o è un rendering sbagliato di versioni del file, che però lui si mostra il percorso e quindi il percorso è corretto e uguale, ma lui intende due punti temporali diversi di quel file, oppure c’è un bug e me ne sono accorto leggendo quello che combina.
Alessio
Un problema con i tool, dico.
Paolo
Problema con i tool, potrebbe essere un problema con il modello o potrebbe essere solo un problema di logging, come vi dicevo. Magari in realtà lì c’è un hashcode, i due hashcode sono diversi ma il nome del file invece è lo stesso.
Comunque li leggo e sono interessanti, però più in generale, Alessio, mi hai fatto venire in mente che questo problema che tu manifestavi, ovvero riusciamo a dare retta a tutto quanto il flusso di esecuzione? La risposta è no, ma questo problema si manifesta forse più visivamente nei progetti di collaborazione, di coding con gli open source in particolare, in cui è aumentata così tanto la produttività per produrre nuovo codice PR che adesso il collo di bottiglia è la revisione di questo codice. I tech lead, i project lead seri che non vogliono accettare qualunque cosa, non hanno letteralmente il tempo per stare a leggere tutta la roba che gli arriva. E alcune delle robe che gli arrivano, in alcuni progetti più popolari, era famoso l’esempio del tizio di cURL, è pattumiera. E loro sprecano del tempo a leggere pattumiera di AI slop o di concetti sbagliati, cattive idee in generale, che adesso il primo che passa gli lancia addosso e lascia loro l’incombenza di decidere quale rumore, quale segnale.
Stefano
Intanto che parlavamo ho verificato quella cosa che dicevi, giusto per dare l’informazione completa e perché mi incuriosiva a me. Allora, per i subagent usa Haiku soltanto quando vanno in Explore, cioè quelli read-only, subagent di Explore. Ma quando va in Plan o General Purpose lo eredita, eredita il modello dalla sessione madre e quindi se sei partito con Opus vai con Opus.
Paolo
Sì, è più ragionevole, però appunto era comunque affascinante l’idea che ci sia questo livello di ottimizzazione dentro Claude Code che uno volendo può andare a interferire.
Stefano
No, no, quella è affascinante. Ero già pronto a giocare con le variabili d’ambiente come mi avevi consigliato tu, ma la parte di Explore mi interessa poco. Quindi usando il mio modello e che tanto piace a Paolo.
No, ecco, però la velocità è un tema. La velocità è un tema, tanto che quelli di GPT ci si sono messi pesanti perché GPT 5.3 Spark va a livello di velocità di numero di token 6 volte più veloce di 5.3 normale, allo stesso prezzo con meno token, quindi a prezzo più alto per token.
Alessio
Ma infatti qui la domanda, se vuoi, è: ma fino a che punto uno può sacrificare l’accuratezza per avere invece velocità? In quale tipo di utilizzo?
Stefano
Quella è una domanda… Allora, nell’utilizzo generico come assistente personale secondo me assolutamente sì. Nel senso, se lo uso per spostare file, organizzare directory, farmi le slide, quelle cose lì, che Minimax vada come un fulmine mi interessa di più che sia perfettamente accurato, perché tanto poi le rivedo.
Alessio
Perché tu sai già che il task è sufficientemente facile per cui in ogni caso ce la farà.
Stefano
Esatto. Sul codice complesso, boh, non lo so. Intanto che io sto pensando di smettere di pagare tutti i cinesi che pago e pagare soltanto un americano, cioè Opus e fine. Stavo giusto guardando quante chiamate mi fa fare la versione 5x e sono a livello di Minimax, quasi quasi proprio a livello.
Alessio
Proprio a livello di brainstorming.
Stefano
20, li do già ad Anthropic. 40 li do a Minimax. Li metto insieme, sono già 60. Con 40 in più mi trovo con Opus 4.6, forse che forse dal mese prossimo faccio questa scelta qua, così mi avete fatto tutti i conti in tasca.
Alessio
Poi dai qualcosa anche a ChatGPT.
Stefano
Ma quello non posso non darglieli perché mia figlia mi ammazza se smetto di pagare ChatGPT.
[01:00:20] Rischi e Sicurezza nell’Utilizzo di AI
Paolo
Comunque, scusami, prima stavi raccontando che per spostare file sul desktop ti va bene un modello veloce, più che uno bravissimo. Mi richiami alla storia, una delle news di questa settimana, la capa della sicurezza di…
Stefano
L’abbiamo preparata questa, quindi riesco a stare al passo.
Paolo
C’è un post su Twitter, credo, c’è uno screenshot di una chat dove, non vi ricordo più come si chiama, la persona che è a capo della sicurezza in Meta, gli è scappato di mano il suo OpenClaw nonostante avesse tutte le precauzioni del caso definite e gli ha iniziato a cancellare tutta la mail che trovava. E lei racconta come in una scena di film d’azione dove corri a cercare di smantellare la bomba prima che stia per esplodere, è dovuta correre davanti al computer a cercare di bloccarlo. E sei la capa della sicurezza di Facebook, che quindi qualcosa ci dovresti capire, e le persone che lavorano insieme a te ti avrebbero dovuto dire esattamente come fare a far sì che questo non succedesse, ed è successo nonostante tutto.
Stefano
Ecco, tra l’altro questo, spieghiamo un secondo per gli ascoltatori anche tecnicamente che cosa è successo, perché poi sono andato a leggere. Allora, premesso che doveva mettere dei guardrail più importanti sulla sua mail eccetera, ma lei pensava di essere a posto perché tra le OpenClaw, come anche Claude Code, gli puoi dare una sorta di system prompt all’interno del Claude MD, di cose che deve sempre rispettare, e lei le aveva detto “suggerisci soltanto modifiche sulla mail, non prendere mai iniziativa, non fare mai cambiamenti.” Allora, la cosa giusta era dargli delle API che non facessero cambiamenti e fossero in sola lettura. Lei si è fidata dal dirlo al modello.
E che cosa è successo tecnicamente? Questo anche per far capire perché tante volte abbiamo insistito anche nella puntata quando c’era Alex, l’abbiamo spiegato bene. Tra l’altro credo che ormai sia il nostro ospite più citato, glielo dirò questa cosa. Però lo spiegavamo dal fatto che uno dei motivi per usare Backlog o sistemi simili è che tu fai una sessione, usi tutto il contesto, chiudi, riapri o fai clear in modo da partire da sessione pulita e di non arrivare mai al comprimere la sessione perché quando comprimi potresti perdere un po’ di qualità.
[01:02:20] Compressione del Contesto e Qualità delle Risposte
Stefano
Quello che è successo lì è esattamente quello. La sua casella di mail era così grande che quando ha cominciato a leggere i messaggi che doveva cancellare, erano così tanti, perché evidentemente non faceva zero inbox come policy, ne ha letti così tanti che ha riempito il contesto, ha deciso di comprimere, l’ha riempito ancora, ha deciso di comprimere, l’ha riempito ancora, ha deciso di comprimere e nell’ultima compressione, lei dice la terza, nella compressione si è persa l’istruzione del “non prendere iniziativa” e ha deciso che stava riempiendo ancora il contesto e ha detto “ma via, invece di continuare a comprimere perché non zappo via tutta sta roba che mi libera il contesto?” E così ha fatto.
Alessio
Le sue informazioni sono state diluite nel resto.
Paolo
Ho due aneddoti su questa cosa. La prima è: ovviamente questi rischi su scala diversa ce li hai anche quando fai Claude Code normale per sviluppare cose, e gli sviluppatori saggi di Anthropic ci hanno donato gli hooks per intercettare prima che vengano eseguiti i comandi, i comandi stessi. Così tu puoi avere dei guardrail strong, ovvero non con del testo che ogni tanto può perdersi, proprio dei passaggi software tradizionale, per cui il codice non va avanti finché non viene fatto questo ragionamento.
Ed è molto importante a mio avviso perché mi veniva da commentare prima, si vede che quella persona in Facebook non aveva mai passato abbastanza tempo a fare vibe coding perché ci incappi inevitabilmente che tu gli dici di non fare una cosa, lui la fa, e a un certo punto lo devi proprio bastonare e dire “adesso mi sono arrabbiato, voglio verificare ogni singola cosa che provi a fare, ti impedisco di fare quello che ti ho detto di non fare”.
Alessio
Che è una lampada di Aladino.
Paolo
Tipo la lampada di Aladino, sì. Ovviamente poi funziona questa cosa, non ci sono mai contri. È semplicemente un lavoro lungo e laborioso perché tu ti ricordi tutti i 99 casi su 100, ma ti dimentichi il centesimo e scopri che in realtà erano 500 i casi. Quindi quel problema in realtà è sempre dietro l’angolo, però migliorano le cose ed è una cosa su cui faccio molta attenzione per il mio sviluppo e per quello del mio team quando gli spiego queste cose.
Stefano
Perché non è sufficiente?
Paolo
La seconda cosa invece, che me la sono già dimenticata qual era… Era che sì, i contesti, il valore dei contesti e della compressione del contesto. Ho sempre preso sotto gamba questa cosa perché ogni tanto avevo più cose da fare di quello che il contesto mi permetteva e non avevo la sensazione che si potesse fare di meno. Dovevo fare delle cose grosse e lui doveva avere informazioni tutte insieme, prendere o lasciare. Quindi l’ho sempre preso come un male accettabile e tendenzialmente vedevo che le performance degradavano un pochettino, ma era più una sensazione spannometrica, quindi magari era tutto un film nella mia testa o così.
Questa settimana invece l’ho verificata con mano in una maniera quasi buffa. Non so se mi è impazzito il terminale, mi ha fatto vedere delle cose che non doveva, o semplicemente mi è capitato di guardarlo tra una compaction e la fine della compaction, ma mi ha sputato fuori il system prompt compattato successivo ed era terribile. Ma non era terribile in cui lui aveva selezionato a caso delle frasi, quello potrebbe essere accettabile. Era proprio sbagliato. C’erano ripetizioni di parole, parole mangiate insieme, cioè proprio come qualcuno che ha picchiato la testa e non ragiona più. E questa, vederlo con i miei occhi mi ha fatto capire quanto non ci si possa fare affidamento su quella cosa lì.
Stefano
Quando è successa questa cosa? Questa settimana? Perché un paio di settimane fa c’era un bug su Claude Code sulla compressione che hanno fissato nel giro di qualche ora, ma in quelle ore si è scatenato il mondo perché non andava più nulla in compaction.
Paolo
Questa settimana, potenzialmente sì, potenzialmente buggata. Ma guarda, finché se ne parla a livello astratto ti dico “vabbè, ok, capisco, è meglio se…” Quando l’ho vista ho proprio capito che lì io umano non capivo cosa c’era scritto, cioè perché ci deve capire lui? Ho proprio capito il punto. Non si scherza con quello.
[01:07:16] Strumenti per la Gestione del Contesto
Stefano
No, no, infatti bisognerebbe sempre cercare di lavorare a contesto pulito sulle singole issue, portarle in fondo, uscire, rientrare. Ed è il motivo per cui gli strumenti che esternalizzano questa cosa, siano PRD, spec, Backlog, quello che è. Perché tutto il ragionamento lo fai prima, lo consolidi lì e poi gli dici “ok, prendi quel pezzettino”, lui si legge quello che gli serve in contesto e si muove.
Ecco, tanto tempo fa ve l’avevo raccontato, non mi ricordo se in podcast o in privato, avevo il mio personale flusso in cui facevo la spec e poi gli facevo creare un work in progress file in modo che lui si tenesse traccia di cosa aveva fatto. Strumenti tipo i vari, già citato Backlog e altri, fanno esattamente quella roba lì, ma è veramente fondamentale.
Tanto che, lo dicevamo con Paolo, no? Ci scrivevamo questa cosa, sia io che te lo usiamo anche per task non di coding. Cioè per prendere appunti delle prossime cose che facciamo con l’aiuto di Claude Code, ma non necessariamente di coding.
Paolo
Ti dico la verità, adesso che ce l’ho sul telefono ancora di più, è un’estensione dell’Alexa/Siri che non ha mai funzionato bene.
Peraltro, scusami, ho fatto una PR a Backlog MD e me l’hanno approvata. Era una classe di CSS la mia PR, però era un bug effettivo che avevo beccato e quindi volevo far presente che si può contribuire ai progetti.
Stefano
Ne ho fatte due anch’io. Gli ne ho fatte due anch’io proprio questa settimana e penso che mi ha detto che le deve guardare, però ne ho fatte due anch’io perché c’erano due cosette che servivano a me personalmente, ma che credo siano utili al mondo. E sì, contribuite! Sì, no, però contribuite, è un bel progetto, open, ha tante stelle, più di 1000.
Alessio
Sempre perché Alex è l’ospite più citato.
[01:09:30] Conclusioni e Riflessioni Finali
Paolo
Cliccateci le stelline e campanelline al progetto degli altri.
Stefano
No, ma anche al nostro! Le campanelline vanno messe qua. Poi dopo ci sono le stelle… No, lo so che al prossimo altro non lo diciamo.
Paolo
Anche punti Fragola valgono.
Stefano
I punti Fragola solo se ce li regalano, perché mi piacciono gli zaini. No, scherzo.
Alessio
Vogliamo parlare dei piatti della pizza di Carrefour, non lo so.
Stefano
Potrebbe essere. Ricordiamo che Esselunga e Carrefour sono gli sponsor di questa puntata. Va bene, credo che abbiamo già fatto i pirla abbastanza. Possiamo, cosa dite, chiudere?
Alessio
Sì, sì.
Stefano
Va bene. Grazie a tutti e tutte di averci ascoltato. E campanelline, stelline, quelle cose che Paolo non vuole che si dicano. Alla prossima, ciao!