L’ETICA DEL SOFTWARE NELL’ERA DELL’INTELLIGENZA ARTIFICIALE
di Fabio Gnassi
intervista a Stefano Maffulli
I timori sempre più diffusi legati all’utilizzo di intelligenze artificiali centralizzate e proprietarie trovano nell’universo open source una possibile soluzione, un orizzonte di speranza per la costruzione di strumenti più trasparenti, etici e comunitari. Ma quale significato si cela dietro l’espressione “modelli di intelligenza artificiale open source”, e chi sono i soggetti incaricati a regolamentare e governare la crescita di questi innovativi strumenti?
La Open Source Initiative non è l’unico ente impegnato a tutelare la democratizzazione del software. Esiste anche la Free Software Foundation. Potrebbe spiegarci le principali differenze tra le due istituzioni?
Prima degli anni ’80, il software veniva spesso sviluppato e condiviso liberamente tra ricercatori, università e aziende, senza particolari restrizioni. Tuttavia, verso la fine del decennio, questa libera circolazione del codice sorgente iniziò a diminuire con l’applicazione delle leggi sul diritto d’autore. Le aziende cominciarono a proteggere il proprio lavoro attraverso il copyright, limitando così l’accesso e la modifica del software.
Fu in questo contesto che un ricercatore del MIT ideò un meccanismo legale capace di preservare la libera circolazione del software utilizzando le privative della legge del diritto di autore in modo opposto al significato originale. Da questa intuizione nacque un manifesto politico, una dichiarazione d’intenti che attrasse coloro che condividevano l’ideale di un software accessibile e modificabile da tutti. Nel tempo, questa comunità si è strutturata dando vita alla Free Software Foundation (FSF), un’organizzazione che, oltre a tutelare la libera condivisione dei codici sorgente, ha avuto anche un ruolo chiave nello sviluppo del concetto di software stesso. Ci tengo infatti a precisare,che fino ad allora, l’idea di software era molto diversa da quella attuale. Prima degli anni ‘70-’80, il software non era coperto dal diritto d’autore, questa concezione è nata in un secondo momento, in parallelo all’evoluzione del concetto di software libero o Open Source che dir si voglia.
L’evoluzione di questo concetto è avvenuta di pari passo con i progressi tecnologici. Più la tecnologia cresceva e più diventava possibile testare questi ideali nella costruzione di nuovi software. La Free Software Foundation è stata la prima organizzazione ad aver formalizzato queste idee. Negli anni ‘90, a seguito dell’esplosione di internet e la nascita di nuovi codici sorgente di software concepiti per risolvere problemi, nasce una nuova organizzazione, che si presenta come una branca della Free Software Foundation, ma che si distingue da essa per una diversa interpretazione dei principi fondatori. Questa organizzazione è la Open Source Initiative (OSI). Queste due organizzazioni possono essere considerate due organizzazioni sorelle che perseguono lo stesso obiettivo attraverso due approcci diversi: la Free Software Foundation è spinta da un obiettivo etico che parte da un imperativo morale secondo cui chiunque utilizzi un software deve avere accesso al codice sorgente, ciò significa che il software deve essere libero, e la definizione di software libero passa dal riconoscimento di quattro principi chiamati anche “quattro libertà” (uso, studio, condivisione e modifica). La Open Source Initiative, difende gli stessi principi, ma non lo fa per perseguire un principio morale, ma pratico.
L’open source riguarda anche i modelli di intelligenza artificiale, un tema tornato al centro dell’attenzione con il rilascio del modello DeepSeek-R1. Potrebbe offrirci una panoramica su questo scenario?
Il software libero, open source, è una tipologia di software senza restrizioni che da a chi lo usa tutti gli strumenti necessari per controllare la tecnologia che sta utilizzando, per capire come funziona, come è stata costruita e per poterla modificare e condividere con altri. Quando paragoniamo i software con i modelli di machine learning, dobbiamo aver chiaro in mente che i primi sono il risultato di righe di codice scritte dagli essere umani, i secondi invece non sono programmati da umani, sono delle macchine in grado di fare delle previsioni, che costruiscono un output che non è deterministico, ma che è basato su calcoli statistici. La differenza principale è che, non essendo programmati direttamente, i modelli di machine learning non hanno codice sorgente, che invece rappresenta un presupposto essenziale per esercitare le quattro libertà su cui si fonda la definizione di software libero. Il nostro gruppo di ricerca ha impiegato quasi due anni per trovare una risposta a questo quesito. Dopo questo lasso di tempo abbiamo capito che per poter studiare e modificare le moderne intelligenze artificiali, basate su tecniche di machine learning e deep learning, è necessario avere accesso a quattro elementi fondamentali:
- I pesi del modello, ovvero i parametri che determinano il comportamento della rete neurale.
- Il codice completo utilizzato per l’addestramento, che definisce il processo di apprendimento del modello.
- Il codice completo per la costruzione del dataset di addestramento, essenziale per comprendere come i dati vengono selezionati e preparati.
- L’elenco completo dei dati originali che compongono il dataset, per garantire trasparenza e replicabilità.
Questi elementi rappresentano i requisiti essenziali affinché un’intelligenza artificiale possa rispettare i principi del software libero garantendo agli utenti le quattro libertà fondamentali.
Quando un’azienda dichiara di aver rilasciato un modello come “open source”, sta realmente aderendo alla vostra visione o sta semplicemente dando una propria interpretazione di questo concetto?
Le aziende hanno esigenze commerciali e spesso sfruttano l’etichetta di open source per vantarsi di questa qualifica, talvolta abusandone esclusivamente per ottenere un ritorno economico. Un esempio emblematico è il modello LLaMA, sviluppato da Meta, pubblicizzato come open source ma distribuito con restrizioni incompatibili con l’accesso illimitato richiesto da questa definizione. Inoltre, LLaMA manca di trasparenza riguardo al processo di sviluppo e addestramento, ai dati utilizzati e al codice impiegato per il training. Lo stesso discorso vale per DeepSeek-R1 e altri modelli che, pur essendo distribuiti in modo relativamente aperto, non forniscono l’accesso al codice di addestramento, ai dataset o al codice sorgente utilizzato per la loro creazione.
In qualità di ente responsabile della definizione e del riconoscimento del concetto di open source, ci troviamo spesso al centro di contestazioni. Le critiche provengono sia da chi ritiene che l’accesso ai dataset di addestramento debba essere sempre garantito, sia dalle aziende stesse, che considerano sufficienti le loro pratiche di condivisione, come la distribuzione dei pesi dei modelli e la pubblicazione di paper di ricerca e report tecnici.
Il dibattito è ancora aperto e in continua evoluzione. Non a caso, la nostra attuale definizione è contrassegnata con la versione “1.0”, proprio per sottolineare che siamo consapevoli del suo sviluppo futuro, in parallelo ai progressi della tecnologia e alle sue applicazioni. È importante ricordare che le definizioni di open source software e free software si sono consolidate nel corso di decenni, quando esistevano già numerosi software, vasti archivi di codice e diverse licenze da analizzare. Di conseguenza, queste definizioni derivano da una generalizzazione dell’esistente, mentre nel campo dell’intelligenza artificiale ci troviamo ancora nelle fasi iniziali.
A differenza di un marchio registrato, il termine open source non gode di una protezione legale esclusiva, motivo per cui molte aziende di AI si autodefiniscono open source anche senza rispettare i requisiti fondamentali. Tuttavia, negli Stati Uniti e in Europa, la definizione di open source ha acquisito valore legale attraverso alcune sentenze, che stabiliscono che un software così denominato deve garantire le quattro libertà fondamentali: uso, studio, modifica e distribuzione.
Tornando all’esempio di LLaMA, questo modello non soddisfa tali criteri e, di conseguenza, non può essere considerato open source.
E cosa ne pensa, invece, del fenomeno opposto, ovvero di stati, istituzioni e aziende che sviluppano modelli chiusi e proprietari?
I rischi di questi sistemi derivano principalmente dalla loro opacità. Già per loro natura, i sistemi AI faticano a essere considerati affidabili, poiché manca una scienza esatta in grado di spiegare e giustificare perché un determinato modello generi un preciso output a partire da un input. Ci sono elementi mancanti, che potrebbero aiutare a comprendere, ad esempio, perché un modello fornisce continuamente risposte errate e coerenti a certe domande.
Senza una spiegazione scientifica chiara dei risultati, la mancanza di accesso ai dati di partenza o alle informazioni sul processo di addestramento espone questi sistemi a bias e distorsioni sistemiche. Questo rischio diventa ancora più critico man mano che aumenta l’opacità del modello.
Inoltre, ci troviamo di fronte a un problema già visto nel mondo del software: la tendenza a “reinventare la ruota” ogni volta da zero. Il fatto che solo una o due aziende detengono competenze, dati e infrastrutture hardware per sviluppare questi sistemi crea un’enorme vulnerabilità per l’intero settore.
È una situazione simile a quella degli anni ‘90 e 2000, quando il 98% dei computer al mondo utilizzava lo stesso browser, Internet Explorer, rendendo Internet dipendente dalle decisioni di Microsoft. C’erano vulnerabilità e rischi di sicurezza diffusi, come se tutto fosse ridotto ad una monocoltura.
STEFANO MAFFULLI
Stefano Maffulli è il direttore esecutivo della Open Source Initiative (OSI), organizzazione di cui è membro dal 2021 dopo decenni di dedizione alla promozione dell’open source.
Dal 2001 al 2007, ha co-fondato e guidato il capitolo italiano della Free Software Foundation Europe. Successivamente, ha strutturato la comunità di sviluppatori della OpenStack Foundation e ha diretto team di marketing open source in diverse aziende internazionali.
Appassionato utilizzatore di software open source, Maffulli ha contribuito con patch alla documentazione, traduzioni e ha promosso progetti diversi come GNU, QGIS, OpenStreetMap e WordPress.
La sua nomina a direttore esecutivo ha rappresentato un passo fondamentale nella trasformazione dell’OSI in un’organizzazione gestita professionalmente.