L'IA ora può leggere il pensiero (o quasi)

Nel 1882 Frederic Myers, uno dei fondatori della Society for Psychical Research di Cambridge, coniò il termine “telepatia”, combinando il greco tele (lontano) e pathos (sentire). Per qualche decennio la ricerca psichica godette di una certa rispettabilità; William James la prendeva sul serio, il premio Nobel Charles Richet ci dedicò anni, e negli anni Settanta perfino la CIA finanziò il progetto Stargate nella speranza di addestrare sensitivi capaci di spiare i sovietici con la forza della mente. Nessuno di questi tentativi produsse risultati replicabili e la telepatia scivolò progressivamente nel folclore, ma l’idea di fondo non ha mai smesso di esercitare il suo fascino, dalla fantascienza alla filosofia della mente.

Quello che nessuno aveva previsto è la forma in cui questa possibilità si sarebbe parzialmente materializzata, ovvero attraverso i modelli autoregressivi della famiglia GPT. La “lettura del pensiero” che negli ultimi tre anni ha cominciato a funzionare nei laboratori di neuroscienze non assomiglia a nulla di ciò che Myers o la CIA immaginavano: funziona grazie alle AI e invece di captare delle parole esatte intercetta regioni semantiche, sfruttando il fatto scoperto di recente che il cervello e i modelli linguistici organizzano il significato in spazi che risultano parzialmente allineabili.

Le premesse risalgono al 2016, quando Alexander Huth e colleghi pubblicarono su Nature uno studio in cui diversi soggetti ascoltavano ore di racconti mentre la loro attività cerebrale veniva registrata tramite risonanza magnetica funzionale (fMRI). I ricercatori ne ricavarono una sorta di atlante semantico della corteccia, distribuito in pattern elaborati e sorprendentemente simili da un individuo all’altro. Ciascuna area rispondeva a domini concettuali specifici – persone, numeri, proprietà visive, luoghi – e questi domini si disponevano per prossimità secondo una logica riconoscibile. Il sistema semantico risultava molto più esteso e distribuito di quanto gran parte della letteratura precedente avesse documentato; in pratica il cervello tassella la corteccia con una mappa topografica semantica, dove concetti simili sono “vicini di casa”.

Un passo in avanti viene da uno studio seguente di Tang, LeBel, Jain e Huth, pubblicato nel 2023 su Nature Neuroscience. Il loro esperimento funziona in due fasi; nella prima, tre soggetti ascoltano circa sedici ore di podcast narrativi mentre la loro attività cerebrale viene registrata con fMRI. Il sistema impara così ad associare i pattern di attivazione corticale alle rappresentazioni semantiche estratte da un modello di linguaggio: apprende quale costellazione di attività cerebrale corrisponde a quale regione dello spazio semantico del modello. Nella seconda fase i soggetti ascoltano storie nuove, mai udite durante l’addestramento, e il decodificatore, a partire dalla sola attività cerebrale, genera sequenze di parole che recuperano il senso di ciò che è stato ascoltato. In pratica prima si “associa” il cervello al modello e poi si sfrutta questa associazione usando parole inedite.

L’aspetto più rivelatore è il tipo di errori che il sistema commette, o meglio, il fatto che non siano errori nel senso consueto. Mi spiego: laddove il soggetto ascolta una frase equivalente a “non ha la patente”, il decodificatore produce qualcosa come “non ha ancora imparato a guidare”. La stringa lessicale è diversa, ma la regione di senso è la stessa. Il sistema produce una parafrasi e converge verso lo stesso bacino semantico, anche se percorrendo una traiettoria diversa. Se restituisse parole identiche saremmo davanti a una sorta di registrazione; il fatto che restituisca parafrasi è a mio parere semioticamente più significativo, perché suggerisce che ciò che viene decodificato è la struttura profonda del significato piuttosto che la sua superficie lessicale.

Immagine per gentile concessione di Francesco D’Isa.

Il sistema riesce inoltre a decodificare il linguaggio immaginato, dove i soggetti immaginano di raccontare una storia senza pronunciare parola, e persino video muti, il che dimostra che un unico decodificatore semantico può operare su compiti percettivi diversi, purché condividano il medesimo livello di rappresentazione.

In parallelo, il gruppo di Jean-Rémi King presso Meta AI ha sviluppato un approccio distinto, basato su magnetoencefalografia (MEG) ed elettroencefalografia (EEG) anziché fMRI. La fMRI ha un’eccellente risoluzione spaziale ma una risoluzione temporale molto bassa, circa un’immagine ogni due secondi, è molto più lenta del linguaggio. MEG ed EEG catturano l’attività neurale con risoluzione temporale dell’ordine dei millisecondi, al costo di una risoluzione spaziale inferiore.

L’architettura di questo sistema si ispira a CLIP, il modello di OpenAI che allinea testo e immagini in uno spazio condiviso. Qui però gli elementi da allineare sono diversi: da un lato le rappresentazioni cerebrali, dall’altro quelle del parlato. La rete impara a far corrispondere i due spazi attraverso un apprendimento contrastivo, cioè imparando a distinguere le coppie corrette (segnale cerebrale e audio corrispondente) da quelle sbagliate. Il sistema è stato testato su quattro dataset pubblici, per un totale di 175 volontari e oltre 150 ore di registrazioni. I risultati mostrano che a partire da 3 secondi di segnale MEG il modello riesce a identificare il segmento di parlato corrispondente con un’accuratezza del 41% su oltre 1.300 segmenti candidati, il che significa che in quasi metà dei casi il sistema individua esattamente la frase giusta tra più di mille alternative possibili, laddove il caso avrebbe una probabilità dello 0,08%.

Il programma di ricerca si è esteso al dominio visivo. Benchetrit, Banville e King hanno sviluppato un sistema addestrato ad allineare l’attività cerebrale con le rappresentazioni visive apprese da un modello di computer vision auto-supervisionato. I soggetti osservavano immagini mentre la loro attività cerebrale veniva registrata con MEG; il sistema produceva poi immagini ricostruite a partire dal solo segnale neurale.

Anche qui il pattern degli errori è analogo. Le immagini generate preservano le caratteristiche semantiche di alto livello come la categoria dell’oggetto e la composizione generale della scena, ma falliscono sui dettagli di basso livello: posizione, orientamento, colore esatto. Il sistema riconosce che si tratta di un cane, ma non lo colloca nel punto giusto dell’immagine. Questo suggerisce che la decodifica avviene al livello della rappresentazione categoriale e concettuale piuttosto che della percezione sensoriale.

Un ulteriore studio del gruppo Meta AI, pubblicato su Nature Human Behaviour, fornisce una cornice teorica più esplicita per comprendere il rapporto tra cervello e modelli linguistici. Gli autori hanno analizzato i segnali fMRI di 304 partecipanti che ascoltavano brevi storie, confrontando le attivazioni cerebrali con quelle dei livelli interni di GPT-2.

Il primo risultato conferma ciò che altri studi avevano già suggerito: le attivazioni di un modello linguistico si mappano linearmente sulle risposte cerebrali al parlato, il che già di per sé è notevole. Ma il secondo risultato è più sottile. Il cervello, a differenza degli LLM attuali, opera secondo una gerarchia predittiva che si estende su scale temporali multiple: le cortecce temporali predicono rappresentazioni a breve raggio – la parola successiva, come fa GPT – mentre le cortecce frontoparietali generano previsioni a lungo raggio, fino a otto parole nel futuro, e di livello più astratto, più contestuale. Cervello e LLM condividono dunque il principio organizzativo fondamentale – la predizione come meccanismo della comprensione linguistica – ma il cervello ne implementa una versione gerarchica e distribuita che gli LLM attuali catturano solo parzialmente.

Un lavoro indipendente di Goldstein e colleghi, pubblicato anch’esso su Nature Neuroscience, rafforza questo quadro con dati provenienti da elettrocorticografia (ECoG). Gli autori identificano tre principi computazionali condivisi tra cervello e modelli autoregressivi: entrambi sono impegnati nella predizione continua della parola successiva prima che questa venga percepita; entrambi confrontano la predizione con la parola effettiva per calcolare un segnale di sorpresa; entrambi si affidano a rappresentazioni contestuali per codificare le parole nel loro contesto d’uso. Questo studio, proveniente da un gruppo diverso (Princeton/NYU) e basato su registrazioni invasive ad alta risoluzione temporale, rafforza questa linea di ricerca e documenta la condivisione di principi computazionali con un’evidenza che va oltre il semplice allineamento statistico.

Sempre nel gruppo di Meta AI e in un lavoro precedente su Communications Biology, Caucheteux e King avevano già mostrato che le reti neurali transformer addestrate sulla predizione di parole convergono parzialmente con le rappresentazioni cerebrali, e che questa convergenza è tanto maggiore quanto migliore è la capacità predittiva del modello. Le rappresentazioni di GPT-2, inoltre, predicono il grado di comprensione semantica dei soggetti: la mappatura cervello-modello correla significativamente con i punteggi di comprensione narrativa.

Il presupposto che rende possibile l’intera impresa è che il cervello e i modelli computazionali rappresentino il significato in spazi che, pur essendo fisicamente eterogenei (pattern di attivazione neurale nel primo caso, vettori ad alta dimensionalità nel secondo), risultano parzialmente allineabili. Il significato, in entrambi i substrati, sembra organizzarsi per prossimità: concetti semanticamente affini occupano regioni vicine, e le relazioni tra concetti si possono descrivere come trasformazioni nello spazio. La mappatura lineare tra attività cerebrale e rappresentazioni del modello funziona proprio perché le due organizzazioni sono sufficientemente allineate da consentire una traduzione parziale ma sistematica.

Lo studio di Huth del 2016 aveva mostrato che la corteccia organizza il significato in una mappa topografica dove domini concettuali contigui occupano regioni adiacenti. Tang et al. aggiungono un tassello: il modello linguistico non è solo uno strumento di decodifica, ma funziona come una sorta di mediatore semantico perché il suo spazio di rappresentazione rispecchia, almeno parzialmente, quello cerebrale. Cervello e modello linguistico costruiscono rappresentazioni diverse di uno stesso territorio; le rappresentazioni non sono identiche, ma il fatto che un mapping lineare funzioni indica una compatibilità strutturale significativa, anche se è bene precisare che “compatibilità” non significa “identità”.

Nel 2025 Tang e Huth hanno pubblicato su Current Biology un lavoro che affronta direttamente una delle limitazioni più stringenti del loro sistema originario: la necessità di un lungo addestramento individuale. Utilizzando tecniche di allineamento funzionale tra soggetti, gli autori mostrano che è possibile trasferire decodificatori semantici da un partecipante a un altro, riducendo il fabbisogno di dati linguistici del soggetto su cui si utilizza il sistema. Il trasferimento tra soggetti, insomma, non è più inefficace come nel 2023, anche se l’adattamento individuale conserva un vantaggio.

L’ultimo sviluppo in ordine di tempo è TRIBE v2, un modello presentato da Meta AI alla fine di marzo 2026 e addestrato su oltre mille ore di dati fMRI raccolti da 720 soggetti. A differenza dei sistemi precedenti TRIBE v2 è in grado di predire le risposte cerebrali di persone mai osservate prima con minore ricalibrazione. Il modello integra simultaneamente visione, audio e linguaggio e produce predizioni che in alcuni casi si correlano con l’attività neurale media di un gruppo più di quanto non facciano le scansioni fMRI dei singoli individui, come se il sistema avesse appreso una sorta di risposta cerebrale canonica depurata dal rumore delle variazioni individuali. Se i lavori precedenti dimostravano che cervello e modelli linguistici condividono uno spazio di rappresentazione parzialmente allineabile, TRIBE v2 suggerisce che questa convergenza si estende al dominio percettivo in tutta la sua ampiezza.

Detto questo, sebbene da un punto di vista giornalistico funzionerebbe molto bene un titolo come “le AI leggono il pensiero”, questi risultati vanno letti con tutti i loro limiti. Il sistema come abbiamo detto non legge pensieri parola per parola. Ciò che viene ricostruito è una stima probabilistica della regione semantica, non la forma esatta dell’enunciato. In alcuni casi il decodificatore produce frasi pertinenti ma lessicalmente molto distanti dall’originale, in altri genera errori grossolani. La decodifica linguistica, inoltre, richiede tuttora un esteso addestramento individuale, anche se studi recenti hanno limitato significativamente questo limite. La lettura è più accurata quando il soggetto ascolta contenuti narrativi continui; con pensieri spontanei, non ancorati a stimoli controllati, le prestazioni degradano notevolmente. I segnali cerebrali si fanno più dispersi, più rumorosi, e mancano i vincoli contestuali che guidano la ricostruzione. La fMRI ha inoltre limiti temporali intrinseci e la risoluzione di circa un’immagine ogni due secondi rende impossibile una decodifica in tempo reale. I sistemi basati su MEG ed EEG risolvono parzialmente il problema, ma al costo di prestazioni di decodifica inferiori.

C’è infine un limite epistemologico importante. Il fatto che cervello e LLM abbiano spazi di rappresentazione parzialmente allineabili non dimostra che funzionino allo stesso modo. Dimostra che alcune rappresentazioni linguistiche dei modelli e alcune rappresentazioni cerebrali del linguaggio possono essere messe in corrispondenza in modo significativo. Il cervello è un sistema biologico plasmato da milioni di anni di pressione evolutiva; l’LLM è un sistema statistico addestrato sulla co-occorrenza di token testuali. Si può però dire – e non è poco – che l’IA dimostra per via empirica che il significato può essere organizzato per prossimità e densità in uno spazio continuo, e che un sistema così organizzato può produrre output semanticamente coerente. E questo trova paralleli significativi, anche se parziali, nel nostro cervello – non sono uguali dunque, ma nemmeno così diversi.

Francesco D’Isa

L’IA ora può leggere il pensiero (o quasi)