Al netto dei consueti annunci apocalittici e delle promesse messianiche che ormai caratterizzano il linguaggio delle big tech, GPT-5 non è né una bomba atomica né un passaggio rivoluzionario. Detto questo, i dati tecnici e le prove pratiche indicano comunque un progresso concreto.
Nelle valutazioni pubbliche come LLM Arena, dove poco dopo il rilascio ha raggiunto il primo posto (ora superato da Gemini 2.5 pro), GPT-5 si dimostra più coerente, affidabile e capace di mantenere il filo logico di conversazioni complesse. OpenAI, nel System Card, segnala riduzioni sensibili delle allucinazioni (?26% rispetto a GPT-4o nella versione principale, ?65% nella versione “thinking”) e un miglioramento nella gestione delle istruzioni ambigue grazie alla strategia di safe-completions. Anche la tendenza alla piaggeria (“sycophancy”) cala drasticamente: ?69% per gli utenti gratuiti e ?75% per quelli a pagamento. Chi paga evidentemente non ha più bisogno di essere lisciato. Un’area dove la differenza si percepisce subito è il coding: GPT-5 è capace di generare in autonomia script e piccoli siti web funzionanti, riducendo gli interventi manuali necessari.
Nella produzione testuale inglese, la qualità cresce; in italiano, al contrario, si nota un calo di registro e di sfumature. La performance linguistica di un LLM non è un fatto puramente tecnico: riflette sempre, in qualche misura, la distribuzione culturale e geografica dei dati su cui è stato addestrato (Kazemi et al., 2024). Studi recenti mostrano che i modelli GPT tendono a incorporare valori e schemi culturali tipici dei Paesi anglofoni e dell’Europa protestante, anche quando operano in altre lingue (Vimalendiran, 2024). Nel caso di GPT-4o, le risposte a domande tratte dal World Values Survey risultano più vicine ai valori medi di Finlandia, Andorra e Paesi Bassi che a quelli di Paesi africani o mediorientali. Questa convergenza non è casuale: può derivare sia dal predominio dell’inglese nei dati di addestramento, sia dal bias implicito introdotto dalle fasi di alignment condotte da team e annotatori, prevalentemente statunitensi. L’italiano, pur essendo una lingua europea relativamente ben rappresentata, può subire interferenze culturali di origine anglofona nei contesti meno presenti nei dati italiani.

Due ulteriori novità cambiano lo scenario d’uso. Primo: GPT-5 è disponibile gratis via ChatGPT con auto-routing, eliminando il collo di bottiglia qualitativo di chi finora usava solo modelli mediocri. In pratica, l’utente che scrive in ChatGPT free riceve una risposta generata da GPT-5 o da altri modelli intermedi senza una comunicazione esplicita. Questa scelta ha due effetti immediati: da un lato, democratizza l’accesso alle capacità più avanzate, perché molti utenti che prima sperimentavano solo modelli mediocri ora interagiscono di default con sistemi di fascia alta; dall’altro riduce la trasparenza sull’origine effettiva delle risposte, rendendo più difficile valutare prestazioni e limiti di ciascun modello.
Secondo: via API, l’input costa circa la metà rispetto a GPT-4o, anche se l’output mantiene il prezzo precedente. Un incentivo per sviluppatori e aziende, che possono integrare il modello con costi operativi ridotti. Nella mia primissima analisi, il calo dei costi mi ha fatto pensare anche a una maggiore efficienza energetica. Ma uno studio rilanciato dal Guardian (9 agosto 2025) e i dati del System Card suggeriscono il contrario: il consumo stimato per GPT-5 sarebbe più alto di GPT-4o. Purtroppo, non avendo dati ufficiali, si tratta solo di inferenze e proiezioni. Se questi dati fossero confermati, la mossa di OpenAi sembra rischiosa: per un avanzamento tecnologico non immenso consumare più di quaranta volte, che, al netto delle ovvie ricadute climatiche, rende il modello economico ancor più insostenibile.
Queste informazioni sono di difficile lettura: di recente Google ha rilasciato un documento sul consumo del loro modello di punta, analogo a prestazioni, e i consumi sono decisamente bassi. Ogni richiesta testuale inviata a Gemini consuma in media 0,24 wattora di energia, genera circa 0,03 grammi di CO? equivalente e utilizza 0,26 millilitri d’acqua, l’equivalente di cinque piccole gocce. Per rendere l’idea, l’impatto è paragonabile a quello di guardare la televisione per circa nove secondi. O Google ha un vantaggio enorme su OpenAi, o qualcosa nei calcoli stimati non torna.

Un fenomeno curioso emerso dopo l’arrivo di GPT-5 è la richiesta, da parte di una parte consistente di utenti, di poter tornare a usare GPT-4o non per motivi di potenza o accuratezza, ma per il suo “carattere”. Nella percezione di molti, ogni modello manifesta una sorta di personalità implicita, frutto delle scelte di training e del rinforzo, che si riflette nel tono adottato nei testi. Per chi, come me, considera l’AI uno strumento da usare in modo funzionale senza antropomorfizzarlo, queste sfumature sono più un rumore di fondo che un valore. Ma l’uso ludico o amicale — incentivato anche dal design conversazionale di queste interfacce — non è di per sé negativo: può rendere l’interazione più piacevole, divertire o anche fornire da supporto. Il problema, semmai, è l’impossibilità di scegliere: non esiste un selettore di carattere per il modello, mentre diversi studi dimostrano che la percezione della personalità dell’assistente influenza soddisfazione, fiducia e senso di affinità.
La ricerca in Human-Computer Interaction e in psicologia sociale ha documentato ben prima della nascita delle AI generative come gli utenti tendano a proiettare tratti umani sui computer, un effetto noto come computers are social actors (Reeves & Nass, 1996). Uno studi più recenteo (Perceptions of Warmth and Competence in AI Agents, 2022) suggerisce inoltre che nelle interazioni uomo-AI, le percezioni di calore (warmth) e competenza influenzano in modo decisivo la preferenza dell’utente verso un agente, ben più delle metriche oggettive di prestazione. In altre parole, il tono e la personalità percepita di un sistema AI possono determinare la fiducia e il gradimento indipendentemente dalla qualità informativa del contenuto. È quindi comprensibile che, per alcuni, la “voce” di GPT-4o fosse più gradita di quella di GPT-5, e che il passaggio forzato generi un senso di perdita. È un po’ come cambiare improvvisamente il carattere di un amico e confidente.
In breve, qualità media più alta, più accessibilità, costi d’ingresso ridotti, miglioramenti nelle funzioni chiave. Ma anche nessun salto epocale, consumi (forse) più elevati, limiti culturali e linguistici. Nell’imprevedibile sviluppo di queste macchine siamo probabilmente arrivati a un plateau in cui si tende ad ottimizzare l’offerta già esistente in ottica commerciale, in attesa del prossimo cigno nero tecnologico.
Francesco D’Isa, di formazione filosofo e artista digitale, ha esposto internazionalmente in gallerie e centri d’arte contemporanea. Dopo l’esordio con la graphic novel I. (Nottetempo, 2011), ha pubblicato saggi e romanzi per Hoepli, effequ, Tunué e Newton Compton. Il suo ultimo romanzo è La Stanza di Therese (Tunué, 2017), mentre per Edizioni Tlon è uscito il suo saggio filosofico L’assurda evidenza (2022). Le sue ultime pubblicazionio sono la graphic novel Sunyata per Eris edizioni (2023) e il saggio La rivoluzione algoritmica delle immagini per Sossella editore (2024). Direttore editoriale della rivista culturale L’Indiscreto, scrive e disegna per varie riviste, italiane ed estere. È docente di Filosofia presso l’istituto Lorenzo de’ Medici (Firenze) e di Illustrazione e Tecniche plastiche contemporanee presso LABA (Brescia)?.