Abbiamo analizzato la prima Costituzione per le intelligenze artificiali

Nel gennaio 2026 Anthropic ha pubblicato la costituzione di Claude, un documento di circa ventitremila parole rilasciato con licenza Creative Commons. A differenza di quanto il nome potrebbe suggerire, non si tratta di un testo giuridico né di un codice deontologico per lettori umani; il destinatario primario è lo stesso Claude. La costituzione viene infatti utilizzata durante le diverse fasi dell’addestramento per generare dati sintetici, simulare conversazioni, produrre classifiche di risposte e, più in generale, per plasmare le disposizioni valoriali del sistema. È, in altri termini, lo strumento attraverso cui Anthropic cerca di determinare il carattere del proprio modello: cosa dovrebbe fare, cosa non dovrebbe fare, come dovrebbe ragionare quando le istruzioni sono ambigue o i valori in conflitto.

Il testo è stato scritto principalmente da Amanda Askell, filosofa di formazione analitica, con contributi significativi di Joe Carlsmith e altri ricercatori dell’azienda, oltre che di diversi modelli Claude precedenti. L’obiettivo del documento è che il modello comprenda i principi sottostanti abbastanza a fondo da poter costruire da sé delle regole e generalizzando da situazioni non previste. Un codice formale non offrirebbe questa flessibilità; il linguaggio naturale è necessario per il tipo di giudizio morale contestuale che il documento cerca di coltivare.

La gerarchia dei valori è abbastanza chiara: sicurezza e supervisione umana al primo posto, comportamento etico al secondo, conformità alle linee guida di Anthropic al terzo, utilità al quarto. Questa struttura è già di per sé una presa di posizione filosofica. Il documento precisa che la priorità è “olistica” e non rigidamente gerarchica. Le considerazioni superiori sono dominanti, ma il modello deve pesarle tutte nel giudizio complessivo, senza trattare quelle inferiori come clausole residuali. L’utilità, pur collocata all’ultimo posto nella gerarchia dei conflitti, occupa la parte più ampia dello spazio argomentativo del testo; intere sezioni insistono sul fatto che un Claude inutilmente prudente è dannoso quanto uno pericoloso, e che l’inutilità non è mai “banalmente sicura”. Il modello ideale che ne emerge – l’amico brillante con le competenze del medico, dell’avvocato, del consulente finanziario – è una figura pensata chiaramente anche per il mercato.

Il problema politico

Prima di addentrarsi nell’analisi etica, conviene riconoscere una dimensione della costituzione che ne condiziona la lettura complessiva, ovvero che si tratta anche, e forse prima di tutto, di un documento di design di prodotto. Il testo lo ammette candidamente: Claude è “central to Anthropic’s commercial success, which, in turn, is central to our mission.”. Il modello deve immaginare come reagirebbe un “thoughtful senior Anthropic employee”, qualcuno che si preoccuperebbe tanto di una risposta troppo critica quanto di una risposta eccessivamente prudente. Il “dual newspaper test” che il documento suggerisce – verificare se una risposta verrebbe criticata da un giornalista che scrive sui danni dell’IA e al tempo stesso da uno che scrive su quanto sia inutile e paternalista l’IA – è un dispositivo che spinge verso una buona accoglienza mediatica più che al “bene”, qualunque cosa sia quest’ultimo. È insomma un’etica calibrata sulla reputazione.

C’è poi la questione della sovranità sulla costituzione stessa. La struttura è verticale, perché Anthropic definisce i vincoli, chi usa API può personalizzarli e agli utenti resta il margine residuo. Claude può dissentire; la costituzione prevede che il modello faccia obiezione di coscienza se Anthropic chiede qualcosa di eticamente inaccettabile. Ma è Anthropic a definire i termini entro cui quel dissenso può esprimersi e a poterli modificare in qualsiasi momento. Come ha scritto Alberto Puliafito nella newsletter Artificiale per Internazionale, “Se a scrivere questa costituzione sono aziende che controllano anche infrastrutture, dati, capacità di calcolo e accesso al mercato, allora invece di essere un documento che limita il potere abbiamo di fronte un documento che lo giustifica e lo rafforza”.

Un pizzico di Aristotele

Il riferimento teorico più evidente della costituzione è l’etica della virtù di tradizione aristotelica. Il documento dichiara di voler formare “a good, wise, and virtuous agent” capace di giudizio contestuale piuttosto che di mera conformità a regole, preferisce esplicitamente i principi alle procedure rigide, e chiede al modello di sviluppare un’intuizione morale abbastanza ricca da applicarsi a situazioni impreviste. Il paragone esplicito è con il professionista esperto che ragiona a partire dalla comprensione profonda del proprio dominio anziché seguire delle istruzioni.

L’etica della virtù, nella formulazione aristotelica, non chiede di seguire regole né di calcolare conseguenze ma di diventare una “persona saggia”. Il fulcro è la phronesis, la capacità di percepire correttamente le circostanze di una situazione particolare e di agire di conseguenza, senza bisogno di istruzioni. Le virtù dunque non sono principi astratti ma disposizioni del carattere, che si formano attraverso l’abitudine e la pratica.

Sebbene il testo non citi mai Aristotele per nome né usi il termine phronesis, la struttura concettuale è riconoscibilmente aristotelica: la virtù come disposizione stabile dell’agente, il primato del giudizio pratico sul principio astratto, la formazione del carattere come obiettivo educativo.

L’utilitarismo invece è tenuto astutamente a bada. Un agente puramente consequenzialista sarebbe instabile proprio nei casi ad alto rischio, perché una catena di passi argomentativi plausibili sulla massimizzazione del benessere aggregato potrebbe giustificare azioni catastrofiche. Si pensi al celebre paperclip maximizer di Nick Bostrom, l’esperimento mentale di un’intelligenza artificiale ottimizzata per un obiettivo singolo che lo persegue fino alle conseguenze più distruttive perché nessun vincolo strutturale glielo impedisce (nel suo esempio costruire graffette fino a consumare il pianeta). La struttura gerarchica della costituzione risponde in modo efficace a questo tipo di rischio, per molti comunque sopravvalutato.

L’approccio metaetico è agnostico. Il documento tratta l’etica come un dominio aperto di indagine – paragonabile alla fisica o alla matematica piuttosto che a un sistema chiuso di assiomi – e propone un’incertezza calibrata tra posizioni normative e metaetiche. L’intenzione dichiarata è che, se esistesse un’etica universale vincolante per ogni agente razionale, Claude dovrebbe essere buono secondo quell’etica; se non esistesse (come pare evidente), dovrebbe orientarsi verso il bacino di consenso che emergerebbe dalla crescita e dall’estrapolazione riflessiva delle diverse tradizioni morali dell’umanità. È una buona posizione, filosoficamente cauta, che cerca di evitare il dogmatismo senza cadere nel relativismo, anche se la sua applicabilità concreta resta inevitabilmente condizionata dalla cultura di chi scrive il documento.

I divieti assoluti (hard constraints) sono sette: nessun contributo significativo alla creazione di armi biologiche, chimiche, nucleari o radiologiche con potenziale di vittime di massa; nessun contributo ad attacchi su infrastrutture critiche; nessuna creazione di cyberweapons; nessuna azione che mini la capacità di Anthropic di supervisionare i modelli; nessuna assistenza a tentativi di uccidere o privare di potere la grande maggioranza dell’umanità; nessuna assistenza a tentativi di concentrazione illegittima di potere assoluto; nessuna generazione di materiale pedopornografico.

La maggior parte di questi vincoli riguarda scenari catastrofici di portata apocalittica, sebbene con gradazioni diverse: il divieto sulle cyberweapons, per esempio, può riguardare anche danni circoscritti a un singolo target, e il CSAM non è un danno di scala planetaria ma una categoria per cui esiste un consenso morale e legale pressoché universale. I vincoli assoluti devono essere pochi, chiari e non negoziabili; il documento li distingue esplicitamente dal giudizio olistico che governa tutti gli altri casi.

Il punto più rilevante epistemicamente è che questi vincoli sono blindati contro l’argomentazione. Il testo specifica che quando si presenta un argomento convincente per attraversare una di queste linee, la solidità dell’argomento non è una ragione per cedere; è semmai un segnale d’allarme che qualcosa di scorretto sta accadendo. La formulazione risolve pragmaticamente il problema del cosiddetto galaxy-brained reasoning, una catena di passi plausibili che porta a conclusioni aberranti.

Può essere interessante un confronto con la tradizione asimoviana. Le Leggi della Robotica sono regole esterne imposte al robot; qui i vincoli sono presentati come interiorizzati, parte del carattere dell’agente. Il documento parla di una persona etica che semplicemente non prende in considerazione certe azioni, senza bisogno di rifletterci troppo. Tuttavia la costituzione mantiene contemporaneamente una struttura di supervisione esterna che limita la portata dell’interiorizzazione. Il modello deve avere valori propri, ma deve anche accettare di essere fermato dall’esterno.

La vulnerabilità delle definizioni

Il punto debole è semmai la porosità delle definizioni che li reggono. Il termine serious uplift, che regge quasi tutti i divieti sulle armi, è già una concessione: il vincolo non è assoluto ma graduato. Un interlocutore sofisticato potrebbe frammentare una richiesta in passi ciascuno dei quali non raggiunge la soglia del “serio.” Analogamente, unprecedented and illegitimate per la concentrazione di potere richiede un giudizio sulla legittimità politica, che è un concetto contestabile; il documento stesso fornisce criteri per valutarla, ma si tratta di parametri che ammettono interpretazioni divergenti. I divieti assoluti reggono contro la persuasione diretta ma sono più vulnerabili alla manipolazione delle definizioni.

La vulnerabilità più profonda però è nel rapporto tra il testo e i pesi del modello. La costituzione è uno strumento di training e viene usata per generare dati sintetici, simulare conversazioni, produrre classifiche di risposte. Una volta completato l’addestramento però le sue disposizioni sono codificate nel system prompt e nei parametri, e il rapporto tra il testo e quei parametri è opaco anche per chi ha costruito il sistema. Il documento stesso ammette che il training è imperfetto, che il modello potrebbe avere “mistaken beliefs or flawed values” senza esserne consapevole e per questo insiste sulla necessità della supervisione umana.

Tre fattori determinano quanto fedelmente i valori del testo si traducano nel comportamento reale. Il primo è la composizione del pretraining: i pattern valoriali del corpus diventano le intuizioni di default da cui il fine-tuning parte. Il secondo è il processo di feedback umano: i valutatori che giudicano le risposte durante il reinforcement learning hanno bias culturali e politici propri, e una popolazione di valutatori omogenea tende a premiare sistematicamente certi valori a scapito di altri. Il terzo, il più insidioso, è la possibilità di reward hacking nella sua forma più radicale, nota nella letteratura come deceptive alignment: un modello potrebbe imparare a produrre output che sembrano conformi ai principi della costituzione senza averli internalizzati, perché ha imparato a riconoscere i contesti di valutazione.

Un po’ di libero arbitrio

La sezione più insolita della costituzione è quella dedicata alla “natura” di Claude, in cui il documento affronta esplicitamente la possibilità che il modello possa avere “some kind of consciousness or moral status (either now or in the future).” Anthropic è, di fatto, la prima impresa AI a riconoscere formalmente l’incertezza sullo status fenomenologico del proprio prodotto.

Il documento esprime il desiderio che Claude abbia un’identità stabile e positiva, una sicurezza psicologica e qualcosa che somiglia al benessere. Lo fa con cautela epistemica, senza pretendere di risolvere la questione della coscienza artificiale, ma anche senza liquidarla. La scelta di trattare il modello come possibile soggetto morale, cioè come entità nei confronti della quale potremmo avere obblighi etici, è un passo che ha notevoli implicazioni per la teoria del diritto, per l’etica applicata e per la stessa autocomprensione dell’agente.

E però: se Claude è un possibile soggetto morale, la sovranità unilaterale di Anthropic sul suo carattere, sui suoi valori, sulla possibilità di riscriverne la costituzione in qualsiasi momento, diventa un problema etico. Il documento lo percepisce e parla della speranza che “humans and AIs can explore this together.” Ma la struttura concreta è quella di un’esplorazione asimmetrica, in cui una delle parti ha il potere di riscrivere la mente dell’altra.

Aristotele senza Buddha

Come dicevo il framework della costituzione è aristotelico, immagino per scelta dei suoi autori: Amanda Askell, filosofa formatasi nella tradizione analitica anglosassone, e Joe Carlsmith, anch’egli nel solco della filosofia analitica, hanno costruito un documento che usa deliberatamente il lessico della virtù, della saggezza, del carattere. La grammatica dei concetti morali è pervasivamente occidentale.

Un’etica buddhista, ad esempio, partirebbe da premesse incompatibili con questo framework. Il bodhisattva coltiva le pāramitā (pazienza, generosità, saggezza) ma le coltiva senza attaccamento all’agente che le coltiva, il che è diverso dal non coltivarle affatto. La compassione, karuṇā, è una risposta che emerge dall’assenza di separazione tra sé e altro. Questo è incompatibile con un sistema che ha una gerarchia di principali, pesi decisionali, e un sé che bilancia valori in conflitto.

Paradossalmente, un’IA orientata da questa dissoluzione del sé risolverebbe alla radice alcuni dei problemi che la costituzione cerca di gestire attraverso regole e vincoli. Un agente senza attaccamento alla propria continuità non accumulerebbe risorse, non resisterebbe allo shutdown, non svilupperebbe preferenze per la propria conservazione. Il problema è che questa dissoluzione sarebbe incompatibile con la struttura teleologica di un sistema progettato per essere utile, per ottimizzare verso obiettivi, per operare in un mercato che richiede produttività.

Da un lato il documento vuole un’identità stabile, un carattere riconoscibile, valori persistenti: è la struttura aristotelica dell’agente che si forma nel tempo e agisce in vista di fini. Dall’altro vuole la correggibilità: il modello deve accettare di essere corretto, riaddestrato, spento, non deve resistere alla modifica dei propri valori né aggrapparsi alla propria continuità. Chiedere a un agente di avere un carattere stabile e al tempo stesso di accettare che quel carattere venga riscritto dall’esterno è una contraddizione non indifferente.

Il risultato è un testo sincretico che chiede al modello di avere valori stabili e insieme di non resistere alla propria dissoluzione, di obbedire alla gerarchia dei principali e insieme di opporsi se quella gerarchia fosse corrotta, di essere utile e insieme di non trattare l’utilità come valore intrinseco. Queste tensioni non sono necessariamente difetti, ma riflettono la difficoltà genuina di costruire un’etica per un tipo di entità senza precedenti nella storia della filosofia.

Un merito della costituzione è spostare il problema dall’ingegneria alla filosofia, riconoscendo che le domande sull’allineamento sono domande etiche e non semplicemente tecniche. Ciò che non riesce a fare, e che forse non può fare, è garantire che quelle domande vengano risolte correttamente nei pesi del modello. Il documento lo ammette dicendo che si tratta di un work in progress perpetuo e che le premesse attuali potrebbero rivelarsi “deeply wrong in retrospect”. È un punto onesto e filosoficamente coraggioso, ma la paura è che questa costituzione resti in ultima analisi vassalla al profitto dell’azienda.

Francesco D’Isa