27/10/2023
Simply that!?!?
Quando sono stati lanciati per la prima volta, i generatori di intelligenza artificiale generativa sembravano pura magia. Creare immagini dettagliate in pochi minuti era, da un certo punto di vista, una meraviglia tecnica. Dall’altro, però, quelle immagini finivano con il sembrare mere imitazioni di opere altrui. E a buona ragione, considerando che questi modelli vengono addestrati utilizzando miliardi di opere senza che nessuno chieda agli artisti che le hanno create il permesso di utilizzarle. "Hanno succhiato la linfa creativa di milioni di artisti – dichiara Eva Toorenent, un'illustratrice che ricopre anche il ruolo di consulente per i Paesi Bassi della European Guild for Artificial Intelligence Regulation – È assolutamente orribile".
E mentre le aziende che operano nel settore continuano a guadagnare dagli strumenti di AI generativa, gli artisti che hanno contribuito a rendere funzionale questa tecnologia non ricevono alcun compenso. Proprio per questo, molti di loro si oppongono fermamente all’uso che l’intelligenza artificiale fa del loro lavoro. Alcuni intentando azioni legali, altri chiedendo alle autorità di regolamentazione di intervenire. Ma finora nessuno ha potuto fare nulla per cambiare il modo in cui le AI sono state addestrate. Ora però le cose potrebbero cambiare. Recentemente, la startup Spawning ha annunciato un nuovo strumento per aiutare gli artisti a impedire che l'intelligenza artificiale usi le loro opere per l'addestramento. Stiamo parlando di Kudurru, una rete di siti web in grado di identificare con precisione il web scraping, ossia l’estrazione di dati da un sito web attraverso l’uso di software specifici.
Come funziona Kudurru
Per capire esattamente come funziona questo strumento, però, è importante sapere che un'AI generativa viene addestrata facendo “scraping” su internet, ossia raccogliendo dati in massa dalla rete, sia da piattaforme come DeviantArt e librerie professionali come Getty Images, sia dai siti web dei singoli artisti. Per riuscire a farlo al meglio, le aziende utilizzano dataset come Laion-5B, che elenca gli url di miliardi di immagini da scaricare. Ed è qui che interviene Kudurru.
Secondo Jordan Meyer, cofondatore di Spawning, durante i test interni Kudurru è stato in grado di bloccare per breve tempo una quantità sostanziale di attività di scraping: "Per circa due ore, a luglio, abbiamo bloccato tutti coloro che stavano scaricando il dataset Laion-5B", spiega Meyer.
Per identificare gli scraper, Spawning gestisce una "rete di difesa" simile a un honeypot con oltre mille siti web, ognuno dei quali ospita immagini che di cui gruppi che utilizzano Laion-5B si servono per addestrare un modello di intelligenza artificiale generativa. E poiché questi siti web raccolgono dati sugli indirizzi ip che tentano di entrare in possesso delle immagini, la startup di Meyer è spesso in grado di identificare i gruppi che effettuano lo scraping e le regioni più attive (attualmente in testa a questa classifica risulta esserci la Cina).
"Stiamo sviluppando una vera e propria lista nera", spiega il cofondatore di Spawning Patrick Hoepner, precisando che l'elenco viene aggiornato in tempo reale in base al comportamento degli indirizzi ip tenuti sotto controllo.
Kudurru offre agli artisti due opzioni per interrompere lo scraping. È possibile limitarsi a bloccare gli indirizzi ip inseriti nella lista nera, oppure decidere di sabotare gli sforzi degli scraper inviando un'immagine diversa da quella richiesta. In questo caso, Spawning offre agli utenti la possibilità di scegliere le illustrazioni da inviare, anche se ha alcune idee alquanto particolari al riguardo: "Potrebbe essere solo un dito medio ripetuto più volte", dice Meyer. Se davvero gli artisti seguissero questo consiglio, l'AI generativa potrebbe cominciare ad associare il loro nome a un gesto osceno della mano, sabotandone l'addestramento.
È un obiettivo che Spawning spera di raggiungere al più presto. Man mano che un numero maggiore di persone utilizzerà Kudurru, infatti, le dimensioni e la potenza dello strumento aumenteranno. Per il momento, però, la versione beta ha una portata limitata: si tratta soltanto di un plug-in per Wordpress, anche se l'azienda ha in programma l'introduzione di plug-in aggiuntivi e l'integrazione di video e audio. La speranza è quella di riuscire a integrare anche il testo prima o poi, anche se in questo caso impedire lo scraping è molto più difficile.
Tutti contro lo scraping
Sebbene Kudurru offra agli artisti un nuovo modo per opporsi all'addestraTmento dell'AI, non è il primo o l'unico strumento disponibile progettato per bloccare lo scraping indesiderato del web. All'inizio di quest'anno, un team dell'Università di Chicago ha lanciato Glaze, un servizio che cerca di confondere gli scraper aggiungendo quello che definisce un "mantello" a un'immagine, ossia una filigrana invisibile.
Allo stesso modo, aziende che proteggono dai bot come DataDome offrono da anni servizi per scoraggiare lo scraping e di recente hanno assistito a un grande cambiamento in risposta all'ascesa dell'intelligenza artificiale generativa. L'amministratore delegato Benjamin Fabre ha dichiarato a Wired US di aver registrato un'impennata di clienti alla ricerca di protezione contro gli scraper legati all'AI. "Il 70% dei nostri clienti ci contatta chiedendo di assicurarsi che DataDome blocchi ChatGpt" e altri modelli linguistici di grandi dimensioni, ha dichiarato di recente. Ma anche se sono ben consolidate nel settore, aziende come DataDome difficilmente sono accessibili ai privati. L'arrivo di Kudurru, quindi, risulta particolarmente promettente proprio perché offre uno strumento gratuito rivolto ai privati.
Il servizio tuttavia è ancora lontano dal diventare una soluzione definitiva per gli artisti che vogliono fermare lo scraping massiccio. I suoi stessi creatori lo considerano una soluzione transitoria in attesa di un'azione normativa o legislativa significativa che gestisca le modalità di addestramento dell'AI. Un cambiamento permanente e su larga scala, insomma, dovrà arrivare dai governi, perché è altamente improbabile che le aziende del settore smettano volontariamente di fare web scraping. Nonostante questo, alcune società stanno cercando di placare le critiche aggiungendo funzioni di opt-out che permettono alle persone che non vogliono che il loro lavoro venga utilizzato dall'AI di chiedere di essere rimosse dai futuri set di formazione. Queste misure sono state giudicate poco efficaci da molti artisti, che vorrebbero che l'addestramento dell'AI li coinvolga solo previo consenso.
Fortunatamente, l'Unione europea è la regione che ha fatto più strada sul fronte dello sviluppo di quadri giuridici sul consenso degli artisti all'addestramento dell'intelligenza artificiale con l'AI Act, che presto potrebbe segnare l'inizio della fine della formazione sregolata. Naturalmente, il resto del mondo dovrebbe poi mettersi al passo. Nel frattempo, c'è Kudurru.