La metafora più famosa sull’IA non è più valida

Sono passati cinque anni dalla pubblicazione di On the Dangers of Stochastic Parrots, e Emily Bender è tornata sulla formula che aveva coniato con un post intitolato Stochastic Parrots: Frequently Unasked Questions. Il testo si presenta come chiarimento filologico, una sorta di servizio reso al pubblico che, nel frattempo, ha trasformato l’espressione in slogan di una certa critica all’intelligenza artificiale.

A leggerlo con calma, però, ho l’impressione che non si tratti proprio di un chiarimento; mi sembra piuttosto un’operazione di manutenzione retorica. Vale la pena di studiarla, non per criticare Bender, che del resto ha posizioni che in parte trovo solide e difendibili, ma perché racconta come una formula nata in un paper accademico possa diventare difficile da governare anche per chi l’ha coniata.

Bender ribadisce che il bersaglio della sua critica non sono mai stati i modelli linguistici in quanto tali (anche se, come vedremo, la distinzione non regge sempre), ma le pratiche industriali che li circondano; lo sfruttamento del lavoro nell’annotazione e nel reinforcement learning, l’opacità sistemica dei dataset, l’impatto ambientale. È una posizione che condivido e che, sul piano politico, resta uno dei contributi più rigorosi al dibattito. Mi pare giusto riconoscerlo, perché ciò che segue vuole essere un’analisi della distanza tra questo nucleo difendibile e il resto.

La mossa centrale del post è una riclassificazione. Bender sostiene che stochastic parrots non era mai stata un’ipotesi empirica e che si trattava piuttosto di una metafora; «un tentativo di rendere vivido cosa fanno questi sistemi». Da qui ricava la conseguenza che la formula non è falsificabile e che quindi tutte le obiezioni del tipo «questo non vale più nel 2026» sono mal poste, perché applicano un criterio empirico a un dispositivo retorico. Parafrasando Giorgio Gilestro, potremmo definire questa mossa unfalsifiable retreat, ritirata infalsificabile. Una tesi che operava come descrizione del funzionamento di un sistema viene sottratta al regime del vero e del falso e ricollocata nel territorio più protetto della figura retorica. Conserva la sua forza evocativa, ma perde esposizione alla confutazione. La mossa funziona; il problema è che chi la compie continua a servirsi anche della forza descrittiva della formula.

Subito dopo aver detto che stochastic parrots è solo un’immagine figurata, Bender la riapplica come se fosse una descrizione. Afferma che il framing dei pappagalli stocastici è ancora “estremamente rilevante” anche per i modelli multimodali, e che bisogna mantenere uno sguardo lucido su come questi sistemi funzionano effettivamente. “Funzionano effettivamente”, però, è un’espressione empirica, non metaforica. Quando dico che una pompa funziona effettivamente come una valvola, sto facendo una affermazione sul suo meccanismo, non una metafora. La conseguenza è un’oscillazione costante tra due posizioni che si tengono in piedi a vicenda; una difensiva minima, secondo cui si tratta solo di una metafora, e una secondo cui la metafora descrive accuratamente cosa fanno questi sistemi.

Questo movimento da descrizione a metafora è ben esemplificato da una espressione presente nel suo testo (mio il corsivo): stochastic parrots (in my writing at least) isn’t an argument. It’s a description or a metaphor.

Ma se è una descrizione (dunque falsificabile), non può essere una metafora (non falsificabile) e viceversa.

La logica argomentativa che ricorda questa oscillazione è quella che gli studiosi delle controversie pubbliche chiamano motte and bailey, dal celebre saggio di Nicholas Shackel del 2005. Il motte è la rocca, la posizione difensiva ridotta ma inattaccabile, dove ci si ritira quando si è sotto assedio. Il bailey è il cortile circostante, dove si vive e si opera quando le difese non sono minacciate. Chi usa questa logica oscilla tra le due posizioni; quando attacca, occupa il bailey; quando viene attaccato, retroguardia nel motte; e nel rapido tornare al bailey, non appena la pressione si allenta, costringe l’interlocutore a combattere su un terreno che si sposta sotto i suoi piedi.

Il post di Bender è leggibile, in diversi passaggi decisivi, come una sequenza di transizioni fra questi due piani. Quando arriva l’obiezione che la formula non descrive più i sistemi attuali, ci si ritira nel motte (è solo una metafora, non un’ipotesi empirica). Quando si tratta di mantenere la presa polemica sui modelli, si esce nel bailey (continua a essere rilevante, ed è importante non perdere di vista come funzionano effettivamente). E il movimento è così fluido che il lettore di buona fede può finire per non notarlo.

Va resa giustizia, in tutto questo, all’unico punto in cui Bender riconosce una complicazione reale; quello sui modelli multimodali. Riconosce, con una concessione rilevante, che i sistemi testo-immagine «si può sostenere che soddisfino la definizione di understanding di Bender & Koller 2020, sebbene in modo estremamente sottile». Non chiamerei questa una capitolazione; mi pare anzi coerente con la sua definizione del 2020, dove l’understanding richiedeva un ancoraggio a qualcosa fuori dal linguaggio e dove i sistemi addestrati su sola forma linguistica non potevano averlo proprio per ragioni di costruzione. I multimodali quel fuori ce l’hanno, almeno in parte, perché vedono immagini, le associano a stringhe linguistiche, costruiscono mappature che attraversano il confine fra ciò che è dentro e ciò che è fuori dal linguaggio. Bender sta applicando rigorosamente la propria teoria e non la rinnega. Il punto interessante, semmai, è ciò che questa applicazione implica per il dibattito; perché se la comprensione è una proprietà che ammette gradi e dipende dal tipo di grounding disponibile, allora la discussione non è più binaria (capiscono o non capiscono) ma quantitativa (in che misura, di che tipo, con quali conseguenze pratiche). È esattamente il terreno che la formula-slogan aveva accumulato attorno a sé per evitarlo.

Ci sono due altri passaggi del post che meritano di essere guardati da vicino, perché illuminano la struttura retorica complessiva. Il primo riguarda la difesa di Bender contro l’accusa di aver coniato un insulto. La risposta procede in tre tempi. Primo tempo; i modelli non possono offendersi, quindi tecnicamente non si tratta di un insulto. Secondo tempo; si può comunque insultare un prodotto, ma il bersaglio della critica non era il prodotto in sé, era l’industria che lo produce. Terzo tempo, presentato come precisazione filologica neutra; il verbo inglese to parrot significa «ripetere senza capire», e questa è la sfumatura semantica che la formula intende attivare. Il problema è che l’ultimo passaggio riformula l’espressione in una proposizione che, applicata a un manufatto venduto sul mercato come tecnologia cognitiva (a torto o a ragione), costituisce per definizione un giudizio svalutativo. La difesa contro l’accusa di aver coniato un’offesa consiste, di fatto, nel ribadire che la formula significa esattamente quella cosa che, nel contesto pubblico in cui circola, suona come offesa. Ripetono senza capire, dunque; e questa è precisamente la sostanza del campo metaforico che Bender ha costruito attorno alla formula in cinque anni di interventi pubblici, dai synthetic text extruding machines della conferenza UCLA del 2024 ai Magic 8 ball a cui ha paragonato le AI nello stesso anno, fino al papier-mâché che torna nel libro con Alex Hanna e nello stesso post che sto leggendo. O quando scriveva che “what is currently being developed as ‘AI’ does not work, nor is it helpful, for an overwhelmingly large portion of people living on the earth today, especially people in the Majority World”.

Non sono insulti rivolti ai modelli, ovviamente; sono descrizioni che Bender propone in modo ricorrente e che nel contesto pubblico in cui circolano equivalgono a un giudizio svalutativo.

Giudizio che in alcune parti del testo sembra invece voler circoscrivere. Nella sezione dedicata al «just», Bender conduce una piccola analisi lessicale: l’avverbio just evoca una scala, un posizionamento su una gerarchia di capacità, e chi le attribuisce questa mossa sta fraintendendo il senso della sua formula; perché lei, sostiene, non misura nulla:

«I am not invested in the project of “AI”, do not see it as a goal that is worthwhile (nor feasible) to work towards, and am not measuring large language models against some scale of progress towards that goal.»

Il ragionamento ha una sua coerenza interna; se rifiuti di partecipare al progetto, non puoi essere accusata di collocare male un oggetto su una scala che non riconosci. Il problema è che questa posizione è difficile da conciliare con il modo in cui Bender ha descritto i modelli in termini che implicano un giudizio di capacità molto preciso: «bullshit machines», «nothing more than souped-up autocomplete», «garbage in, garbage out». Queste sono valutazioni sul funzionamento dei modelli stessi, e funzionano retoricamente perché evocano esattamente quella scala che Bender ora sostiene di non usare. Sostenere di non misurare nulla su nessuna gerarchia, e farlo dopo anni di espressioni che posizionano i sistemi molto in basso su qualunque gerarchia di capacità cognitiva, è una mossa che richiede una spiegazione che il post non offre.

Il secondo passaggio degno di nota è la risposta all’obiezione «valeva nel 2021, non vale più nel 2026». Bender la classifica come tic ricorrente dei sostenitori dell’hype, che a ogni nuovo modello rilanciano l’annuncio della svolta epocale (il «real AI» che finalmente sarebbe arrivato). Come osservazione sociologica è azzeccata; ho assistito anch’io a parecchie di queste annunciazioni pubblicitarie e ne attendo altre. Come argomento, però, è insufficiente, perché unisce due cose che andrebbero tenute separate. Una è il ciclo mediatico promozionale delle Big Tech, l’altra, completamente diversa, è il dato che le capacità misurabili dei modelli del 2026 sono incomparabili con quelle del 2020 e che certi compiti che cinque anni fa erano impossibili oggi sono routine. Trattare la seconda osservazione come una variante della prima è un’operazione che fa scomparire la differenza tra pubblicità e fatti. Su questo punto il post, a mio avviso, lascia la domanda senza risposta; ed è qui che il chiarimento mostra il proprio limite. Mi pare difficile sostenere oggi che un modello multimodale con capacità di ragionamento esteso sia descritto adeguatamente dall’immagine di un pappagallo che rimette in fila pezzi di linguaggio senza capirli; non perché abbia coscienza, certo, ma perché la formula è troppo grossolana per quel che cerca di descrivere.

Cosa resta, allora, dopo questa lettura ravvicinata. Resta la critica attorno al potere, ai dati, al lavoro, all’ambiente; quella parte del progetto che Bender stessa identifica come il cuore del suo lavoro e che è in effetti la più solida. Resta meno, parecchio meno, della tesi semantica nella sua forma forte; quella oggi è protetta da uno scudo metaforico che la rende invulnerabile e quasi inerte, perché tutto ciò che è insieme inattaccabile e inverificabile finisce per non significare granché.

C’è però una conclusione costruttiva da trarre sullo stato attuale della critica pubblica all’intelligenza artificiale. Il post di Bender è prezioso anche perché registra che è arrivato il momento di abbandonare la postura assolutista. Si possono tenere insieme due cose, e bisogna imparare a farlo, senza che si contraddicano; si può dire che i sistemi attuali sollevano problemi sociali, economici e ambientali, e che sono al tempo stesso strumenti potenti, utili, in molti casi straordinari. La finzione opposta, secondo cui se qualcosa è figlio del capitalismo non può essere anche una realizzazione tecnica di grande portata, è una scorciatoia che non regge più. Tutto è figlio del capitalismo, in questo sistema; lo è la stampa che diffonde le critiche al capitalismo, lo è l’energia elettrica, lo è in parte la stessa accademia, il cui ruolo nella nascita dei LLM è importante tanto quanto quello delle aziende tech. Una critica matura mitiga, regola, ridistribuisce, si riappropria; non finge che lo strumento non funzioni per non doversi misurare con un giudizio sfaccettato, perché quella finzione, alla lunga, indebolisce la critica nei suoi punti validi.

I pappagalli di Bender sono volati abbastanza lontano da non poter più essere colpiti dai critici, ma anche da farci sentire sempre meno la loro voce. Possiamo adesso pensare ai problemi che sono rimasti invariati, coniugando l’entusiasmo per una nuova tecnologia cognitiva alla critica per il contesto sociale e il modo in cui viene diffusa.

Francesco D’Isa