L’IA non ha rotto la scienza. L’ha smascherata

Il 7 maggio 2026 The Lancet ha pubblicato una ricerca interessante. Un gruppo guidato da Maxim Topaz, della Columbia University School of Nursing, ha sviluppato un sistema automatizzato per la verifica delle referenze bibliografiche e lo ha applicato a quasi due milioni e mezzo di paper open access ospitati su PubMed Central, pubblicati fra il primo gennaio 2023 e il 18 febbraio 2026. Hanno esaminato 125,6 milioni di riferimenti, dei quali 97,1 milioni avevano un identificativo verificabile contro PubMed, Crossref, OpenAlex e Google Scholar. Il risultato è quello che si comincia a chiamare fabrication rate: una citazione su 2.828 nel 2023, una su 458 nel 2025, una su 277 nelle prime sette settimane del 2026.

La tentazione di fronte a questo dato è sostenere che l’AI rovini la letteratura scientifica e immagino che presto sarà comunicata in questo modo in molti giornali, ma si tratta di una lettura sbagliata e inefficace. Quello che mostra lo studio, se lo si legge con un minimo di onestà intellettuale, è molto più scomodo.

Per individuare le citazioni false, il gruppo di Topaz ha usato l’intelligenza artificiale. Hanno usato Claude Haiku, il modello più leggero di Anthropic, per scansionare due milioni e mezzo di paper. L’AI è stata impiegata in particolare per distinguere le invenzioni dalle semplici discrepanze di formattazione, come titoli abbreviati in modo informale o errori tipografici.

Lo strumento accusato di inquinare la letteratura scientifica è esattamente lo stesso che ha permesso di misurare l’inquinamento. Ma allora perché non viene usato da chi scrive i paper per fare gli stessi controlli? I sistemi più performanti sono oltretutto molto più efficaci di quello usato dai ricercatori.

I modelli linguistici del 2026 allucinano molto meno di quelli del 2023. Questo significa che il tasso di citazioni inventate per query è in calo, mentre il tasso di citazioni inventate per paper cresce. Se gli errori per uso diminuiscono ma il numero totale di errori aumenta, vuol dire che il numero di utenti in accademia sta crescendo molto più in fretta della qualità degli strumenti e della consapevolezza di utilizzo. Anche perché se si chiede a un modello recente di controllare una citazione che ha appena prodotto, nella maggior parte dei casi se ne accorge e la corregge.

Mohammad Hosseini, ricercatore alla Northwestern University, lo spiega con efficacia nell’intervista a STAT News che ha accompagnato l’uscita di un suo studio. La presenza di citazioni allucinate, sostiene Hosseini, suggerisce che ci sono persone che non vogliono nemmeno spendere mezz’ora per controllare i riferimenti di un paper. Questa fretta di pubblicare indica che il modello di valutazione accademica è difettoso e che mette troppa enfasi sulle pubblicazioni peer-reviewed: il celebre publish or die.

Faccio fatica a credere che i ricercatori che oggi pubblicano paper con decine di referenze inventate fossero, due o tre anni fa, scrupolosi verificatori bibliografici. L’AI ha fornito uno strumento più rapido a chi già lavorava male e ha messo in luce fino al grottesco una pratica che esisteva sotto diverse forme.

Una meta-analisi pubblicata nel 2015 da Hannah Jergas e Christopher Baethge sulla rivista PeerJ, che ha esaminato ventotto studi e oltre settemila referenze nella letteratura medica fra il 1985 e il 2013, stima un tasso di errore totale del 25,4% nelle citazioni: una su quattro. Di queste, circa la metà sono errori “maggiori”, nel senso che la fonte citata non supporta per nulla l’affermazione degli autori. C’è anche un’osservazione complementare, citata nello stesso lavoro: un’analisi della letteratura fisica di Simkin e Roychowdhury stima che fra il 70 e il 90% delle citazioni venga copiato dalle bibliografie altrui senza che gli autori abbiano effettivamente letto i paper che citano. Il dato è inferenziale, ricavato dalla propagazione di refusi tipografici nelle bibliografie, ma è sufficientemente robusto da essere stato ripreso in numerosi studi successivi. Detto altrimenti, il fenomeno che misura Lancet ha radici profonde nella pratica accademica.

Quante volte una citazione è davvero importante e quante un atto di cortesia, un riempimento bibliografico, una pratica di posizionamento sociale? La crisi delle citazioni inventate è un’occasione per riconoscere che molte delle citazioni che mettiamo negli articoli non hanno mai svolto la funzione probatoria che la retorica accademica gli attribuisce. Vengono aggiunte piuttosto per segnalare una lettura, per ringraziare un collega, per evitare un revisore vendicativo, per rimpinguare una bibliografia.

NeurIPS, la principale conferenza mondiale di machine learning, ha ricevuto 21.575 submission nel 2025, contro le circa 18.000 del 2024 e le meno di diecimila del 2020. Il tasso di accettazione è rimasto sul 24,52 per cento. Tradotto: oltre cinquemila paper accettati ogni anno in quella sola conferenza, ciascuno mediamente con dieci o quindici autori, ciascuno sottoposto alla revisione di almeno tre esperti. L’apparato editoriale globale sta affogando in un volume di submission che cresce in modo esponenziale, mentre il bacino di revisori e di editor competenti cresce, nella migliore delle ipotesi, in modo lineare.

Quando GPTZero ha analizzato i paper accettati a NeurIPS 2025, ha trovato almeno cento citazioni allucinatorie distribuite in cinquantatré paper, ciascuno revisionato da almeno tre esperti. Se nemmeno una conferenza di prima fascia, con il suo sistema di doppia revisione cieca e con tutto il prestigio che si porta dietro, riesce a intercettare citazioni inventate, è ragionevole sospettare che il problema non sia nei singoli revisori — molti dei quali, immagino, hanno fatto un lavoro coscienzioso — ma nella scala del compito che viene loro chiesto di svolgere.

Il publish or perish è una struttura di incentivi che misura il valore accademico in termini quantitativi: numero di pubblicazioni, h-index, fattore di impatto, presenza in conferenze prestigiose. Un giovane ricercatore che voglia ottenere una posizione stabile deve produrre, in media, molto più di quanto i suoi predecessori producessero alla sua età, e deve farlo in tempi più stretti, con meno risorse e in un mercato del lavoro accademico che si è spesso contratto. La conseguenza logica è che l’attenzione dedicata a ogni singolo paper diminuisce. Se domani sparissero tutti i modelli linguistici, il publish or perish continuerebbe a generare paper di qualità mediocre. Senza l’AI, semplicemente lo farebbe più lentamente e con diverse forme di sciatteria.

Entra qui in scena una proposta che mi pare la più interessante apparsa di recente sul tema. Luciano Floridi, in un paper pubblicato su SSRN il 28 aprile 2026 e destinato a Philosophy & Technology, la rivista che dirige, propone una ristrutturazione completa dell’apparato editoriale scientifico. Il titolo è già una dichiarazione di intenti: The editor’s signature: a proposal for AI-born journals.

La funzione distintiva di una rivista scientifica, sostiene Floridi, è la firma editoriale su un’affermazione credibile, ovvero l’atto con cui uno o più editori responsabili, inseriti in una comunità di ricerca e supportati da un’istituzione, accettano la responsabilità di ciò che pubblicano in condizioni di incertezza probatoria. Tutto il resto — la formattazione, i moduli, i controlli di integrità, l’abbinamento dei revisori, la conversione bibliografica — è infrastruttura. E l’AI, sostiene Floridi, è la prima tecnologia dalla nascita del sistema editoriale moderno che può assorbire questa infrastruttura senza rovinare la firma.

Da questa premessa Floridi ricava una distinzione fra due categorie di riviste. Le riviste AI-assisted sono quelle che aggiungono strumenti di AI a un flusso di lavoro pensato per un’epoca pre-AI. Le riviste AI-born sono quelle progettate fin dall’inizio attorno a ciò che gli agenti AI possono fare in modo affidabile, e attorno alla distinzione fra ciò che è procedurale — e quindi automatizzabile — e ciò che è sostanziale, e quindi irriducibilmente umano.

Fra le caratteristiche necessarie di una rivista AI-born, Floridi elenca un agente di integrità che esegue, prima della peer review, una serie di controlli automatizzati che devono essere non-blocking, ovvero producono un report per l’editore che non implica un rifiuto automatico. La decisione resta umana, ma il lavoro meccanico che la precede viene assorbito dalla macchina.

È esattamente quello che mancava nel caso di NeurIPS. Un controllo automatizzato delle citazioni contro un database avrebbe intercettato le cento referenze allucinatorie prima che i revisori umani le vedessero. Non avrebbe sostituito il loro giudizio, ma lo avrebbe sgravato di un compito meccanico (noiosissimo) che gli esseri umani sono incapaci di svolgere su grande scala. Gli stessi autori del paper sul Lancet sostengono che strumenti automatizzati di verifica delle referenze esistono già e potrebbero essere incorporati nei workflow di sottomissione delle riviste prima della peer review.

Sarebbe però troppo facile concludere che basti aggiungere un agente di verifica delle citazioni e il problema è risolto. Una verifica automatizzata può intercettare i casi più grossolani, ma non può ancora distinguere facilmente tra una citazione pertinente e una citazione di cortesia, fra un riferimento che supporta davvero un’affermazione e uno che è stato infilato nel testo per ragioni che con la sua funzione probatoria hanno poco a che fare.

Una delle ragioni per cui le citazioni inventate prolificano, inoltre, è che la maggior parte degli utenti di AI generativa non sa come funzionano gli strumenti che usa. Senza una formazione di base continueremo ad avere ricercatori che usano l’AI in modo impreciso, e lo stigma verso lo strumento non aiuta, dato che poi viene usato di nascosto.

Una pipeline di verifica come quella di Topaz, applicata in modo sistematico al momento dell’invio degli articoli, potrebbe ridurre drasticamente il fabrication rate. Un agente di integrità come quello immaginato da Floridi, integrato nell’architettura editoriale, potrebbe sgravare i revisori umani da un compito che non possono svolgere. Perché questo accada si deve smettere di trattare l’AI come un nemico o una scorciatoia e cominciare a trattarla come quello che è, uno strumento potente, fallibile e molto utile, che richiede formazione e supervisione.

Francesco D’Isa