I dati per addestrare l’IA sono finiti e ora si punta su quelli sintetici. Cosa sono e perché è inquietante
Sul tema ha fatto il punto anche Elon Musk in un video pubblicato sui social network. Si apre una fase molto delicata nello sviluppo dell'intelligenza artificiale che rende sempre più urgente la necessità di affrontare le questioni etiche che la nuova tecnologia solleva
In un video pubblicato sui social Elon Musk ha fatto il punto sui progressi dell’intelligenza artificiale e ha affrontato uno dei temi più rilevanti del momento: la mancanza di dati per proseguire l’addestramento. L’imprenditore più ricco del mondo ha spiegato che sono stati utilizzati tutti i contenuti di internet, tutti i libri e tutti i video interessanti disponibili. L'unico modo per continuare ad addestrare l’intelligenza artificiale è utilizzare i dati sintetici creati dalla stessa AI e questa è una sfida perché non è possibile sapere se i dati autoprodotti sono allucinazioni oppure no.
Cosa sono i dati sintetici: un caso concreto che aiuta a capire
Le parole di Musk ci portano diritti verso una criticità importante legata allo sviluppo futuro della nuova tecnologia, che richiede una comprensione adeguata di cosa siano i dati sintetici. Molto semplicemente possono essere definiti come informazioni generate artificialmente da algoritmi o modelli di intelligenza artificiale che imitano le caratteristiche dei dati reali. Vengono creati per replicare le proprietà statistiche e le correlazioni presenti nei dati autentici. Ad esempio, se si vuole insegnare alle macchine a riconoscere le immagini di gatti, ma non ci sono abbastanza foto reali, si possono creare immagini sintetiche di gatti che sembrano autentiche. Così la macchina può imparare a riconoscerli anche senza aver mai visto una foto di un gatto vero.
Per l'addestramento delle macchine non si usano però solo gattini
La AI non viene però addestrata a riconoscere solamente gattini, ma anche a dare risposte sulla storia, sulla politica, sull’economia. E qui sorge un dubbio: in questo caso per addestrare le macchine vengono inventati fatti storici o politici mai accaduti? La risposta è rassicurante: no. I dati sintetici non consistono in eventi inventati o frutto della fantasia dell'AI, ma in dati che riflettono le caratteristiche delle informazioni necessarie per l’addestramento, come i temi trattati, le strutture linguistiche e gli stili tipici dei testi storici, politici o economici.
Il pericolo che il Grande Fratello di Orwell diventi realtà
Apparentemente va tutto bene, ma la capacità dell’AI di creare dati sintetici (che usa per il suo stesso addestramento) è inquietante perché riporta alla mente il grandissimo romanzo 1984 di George Orwell, in cui il personaggio principale (Winston Smith) lavorava al Ministero della Verità, dove modificava i documenti storici per allinearli alla propaganda del Partito. Chi ci assicura che i padroni dell’IA (ovvero i grandi imprenditori e manager della Silicon Valley) non diano l'input alle macchine di produrre dati sintetici per l’auto addestramento totalmente inventati, che raccontano eventi storici, politici ed economici completamente diversi da quelli veri? Ma anche se non si dovesse arrivare a questa ipotesi, chi ci assicura che i dati sintetici prodotti non siano frutto di allucinazioni spontanee delle macchine? Il pericolo esiste, come sottolineato dallo stesso Elon Musk. I modelli di intelligenza artificiale verrebbero poi utilizzati dai cittadini per raccogliere informazioni o studiare (come sta già avvenendo) con conseguenze terribili, perché non sarebbe più possibile distinguere il vero dal falso.
Più urgente che mai affrontare i problemi etici che solleva l'IA
Con l’intelligenza artificiale l’umanità sta camminando su una striscia di ghiaccio molto sottile. Il rischio che il ghiaccio si rompa è molto alto. La tech right (incarnata da diversi imprenditori della Silicon Valley) è allergica a qualunque forma di regolamentazione della tecnologia, ma la necessità di affrontare i problemi etici che solleva l’IA è più urgente che mai. I primi temi (e probabilmente più importanti) sono due: quali regole bisogna rispettare nell'addestramento delle macchine su determinati argomenti? Come controllare che eventualmente l'addestramento rispetti le regole stabilite? La politica americana dovrebbe essere in prima fila nell'affrontare la questione, dato che gli Stati Uniti sono il principale centro di sviluppo mondiale dell'AI. Per ora, però, non solo non se ne occupa, ma cammina a braccetto con i principali protagonisti della destra tecnologica, allergica a qualsiasi regolamentazione, e questo non è certo rassicurante per i cittadini occidentali.