Dal Reinforcement learning ai World models: come l’AI proverà a capire il mondo

Mi ritrovo spesso a riflettere sulla possibile evoluzione dell’intelligenza artificiale che stiamo utilizzando oggi. Parlo di quella effettivamente capace di cambiare davvero le regole del gioco.

E l’ho sempre fatto partendo da un semplice ragionamento: se oggi i modelli più avanzati riescono a imparare giochi complessi come il “Go” grazie al Reinforcement learning, provando milioni di mosse e migliorando attraverso premi ed errori, forse lo stesso principio si potrebbe estendere al mondo reale, passando da sistemi capaci di elaborare e generare contenuti a sistemi capaci di imparare per muoversi nel nostro mondo.

Attualmente i modelli imparano soprattutto da testi scritti e contenuti multimediali, mentre i nuovi potrebbero imparare da esperienze dirette operando nel mondo reale.

Il mondo reale è però un’altra cosa. Non è discreto (costituito da valori ben distinti, separati e che si possono contare) ma continuo, imprevedibile e pieno di variabili difficili da rappresentare ed elaborare. Soprattutto, non esiste una funzione di premio esplicita: cosa significa matematicamente “fare bene” in una situazione reale?

Il “Go” opera infatti in un ambiente discreto, con regole immutabili e in uno “spazio” di regole, mosse e caselle ben definito. Ogni azione produce poi un risultato misurabile e alla fine della partita si vince o si perde con una funzione di premio chiara e senza ambiguità. È esattamente per questo che sistemi come AlphaGo, sviluppato da DeepMind, hanno raggiunto livelli straordinari partendo da zero, imparando esclusivamente attraverso il self-play.

Il mio pensiero iniziale, certamente ingenuo, si basava sul fatto che si potesse aggirare questo problema scomponendo la complessità. Immaginavo sistemi capaci di acquisire informazioni visive e tattili attraverso sensori, telecamere e attuatori per simulare azioni, prevedere reazioni e migliorare progressivamente dall’esperienza. Rappresentando l’esperienza nel mondo reale come una serie di piccoli giochi circoscritti, ciascuno affrontabile con le stesse tecniche che hanno fatto funzionare il Go.

Era un’intuizione con un difetto fondamentale, che ho compreso solo studiando i lavori di Yann LeCun e imbattendomi nel concetto di World models. Giusto per presentarlo, LeCun ha ricevuto nel 2018 il Turing Award insieme a Geoffrey Hinton e Yoshua Bengio per i contributi allo sviluppo delle reti neurali profonde, ed è noto in particolare per il lavoro sulle reti neurali convoluzionali, oggi alla base dei moderni sistemi di visione artificiale.

Negli ultimi anni LeCun ha proposto un’evoluzione dell’AI basata proprio sui World models, distinguendosi dall’approccio oggi dominante dei grandi modelli linguistici. Mentre gli LLM imparano da enormi quantità di testo (apprendono, in un certo senso, una proiezione della realtà attraverso il linguaggio), i World models puntano invece ad apprendere direttamente le regole del mondo fisico e in particolare le relazioni tra oggetti, il movimento, le conseguenze delle azioni.

Per farlo LeCun ha sviluppato nuove architetture, tra cui la Joint Embedding Predictive Architecture (JEPA) e la sua evoluzione video, V-JEPA, e quindi fondato la Advanced Machine Intelligence (Ami) Labs a Parigi che ha raccolto oltre 1 miliardo di dollari di investimenti.

Il principio è elegante: invece di prevedere ogni dettaglio visivo di una scena, come farebbe un generatore IA di video, il modello impara a virtualizzare quella scena per capire come evolverà. Non impara da esperienze di terze parti che un oggetto lasciato cadere potrebbe rompersi, ma sperimenterebbe nel suo ambiente virtuale ricostruito le conseguenze di una specifica azione.

Ed è qui che il difetto del mio ragionamento iniziale diventa evidente. Pensavo che il problema del mondo reale si risolvesse pertanto scomponendolo in piccoli e limitati task separati. L’approccio dei World models chiarisce invece che la scomposizione funziona solo se esiste prima una rappresentazione coerente del mondo sottostante: una struttura capace di cogliere relazioni, causalità e regolarità della realtà.

Senza questa base, ogni task rimane un’isola. Con essa invece, ciò che si impara in una situazione diventa trasferibile a contesti nuovi attraverso un meccanismo che nel Machine learning si chiama Transfer learning, ma radicato questa volta nella comprensione fisica del mondo, non solo nella statistica linguistica. I micro-task che immaginavo non spariscono: diventano momenti di apprendimento all’interno di una struttura più ampia e coerente.

L’esperienza dell’oggetto che cade diventa paragonabile all’esperienza che porta un bambino a crescere e imparare sperimentando nel mondo reale.

La differenza, in sostanza, è questa: non si tratta di insegnare a una macchina a risolvere problemi uno alla volta partendo da una knowledge base, ma di darle un modello del mondo in cui quei problemi hanno senso per sperimentarli.

Se dovessimo riuscirci, l’intelligenza artificiale smetterebbe di rispondere a domande per iniziare ad agire nella realtà. L’intelligenza artificiale attuale potrebbe pertanto rappresentare un riscaldamento mentre la nuova scacchiera il nostro mondo.

Restiamo in attesa.

Se vuoi approfondire temi legati all’Intelligenza artificiale, soprattutto legati al marketing, ti invito a seguire il mio blog Ufficiomarketing.it

Stefano
14/03/2026
16:17

Dal Reinforcement learning ai World models: come l’AI proverà a capire il mondo

Corriculum vitae

Dove lavoro: Federottica

Consulenza di direzione

Seguimi sul blog Ufficiomarketing

Contattami

Dal Reinforcement learning ai World models: come l’AI proverà a capire il mondo

Menu

Corriculum vitae

Dove lavoro: Federottica

Consulenza di direzione

Seguimi sul blog Ufficiomarketing

Contattami

Portfolio

In evidenza