Bewijs: AI is getraind met gestolen boeken van schrijvers als Stephen King

©CreativeCommons

21 augustus 2023 om 12:21

Laatste update: 21 augustus 2023 om 12:23

Het vermoeden bestond al langer dat kunstmatige intelligentie is getraind met gestolen teksten van bekende schrijvers. Nu is er ook bewijs: veel bekende AI-taalmodellen zijn gebaseerd op zeker 170.000 illegaal gekopieerde boeken.

AI-taalmodellen zoals ChatGPT worden getraind met enorm veel teksten. Deels zijn dat gratis teksten, zoals van Wikipedia. Maar om de taalmodellen realistisch, kundig en zo menselijk mogelijk te maken, zijn ook teksten van een hoger niveau nodig. Schrijvers vermoeden al langer dat hun boeken zonder toestemming en zonder betaling gebruikt worden voor AI-training – er zijn zelfs al verschillende rechtszaken om aangespannen. Nu is er ook echt bewijs voor.

Dat bewijs liet op zich wachten omdat de bedrijven achter de AI-taalmodellen zich liever niet in de kaarten laten kijken. Ze willen voorkomen dat het publiek en vooral concurrenten weten welke informatie zij allemaal gebruiken. Toch is dat deels bekend: onder meer Meta's LLaMA gebruikt de dataset Books3, meldt The Atlantic. Het literaire tijdschrift kamde door die dataset, die blijkt te bestaan uit zeker 170.000 boeken van onder meer Stephen King, Zadie Smith, Junot Díaz, Haruki Murakami en James Patterson.

Enorme berg data

The Atlantic kwam tot dat enorme aantal boeken via een dataset die bekendstaat als 'The Pile', een tekstbestand met een formaat van 886GB. Dat bevat alles van Wikipedia-teksten, YouTube-ondertitels, transcripten van het Europees Parlement en dus die Books3-set met boeken. The Pile is ontwikkeld door EleutherAI, een non-profit AI-groep die een open-alternatief op GPT-3 ontwikkelt, GPT-J. The Pile is ook gebruikt door in ieder geval Meta's LLaMA en een taalmodel van Microsoft. Books3 wordt genoemd in onderzoek van in ieder geval Meta en Bloomberg.

Het is niet meteen te zien welke boeken er allemaal in de dataset zitten. De tekst is al gereedgemaakt voor AI-training: boeken worden niet gelezen zoals wij dat doen, maar de relatie tussen woorden en patronen wordt door AI 'geleerd'. Daarom worden boeken als enorme brij tekst achter elkaar gezet, waardoor de titel niet netjes vooraan staat. The Atlantic kon tot het aantal boeken komen door te zoeken op ISBN-nummers, de unieke boeknummers die wereldwijd gebruikt worden.

Grote uitgevers

Ongeveer een derde van de 170.000 boeken is fictie, de rest is non-fictie. Het gaat bijvoorbeeld om 30.000 boeken van uitgever Penguin Random House, 14.000 van HarperCollins en ga zo maar door.

The Pile-maker EleutherAI heeft gereageerd op het onderzoek van The Atlantic. "We werken nauw samen met makers en rechthebbenden om hun perspectieven en behoeften te begrijpen en te ondersteunen. We zijn momenteel bezig met het maken van een versie van The Pile die uitsluitend documenten bevat die voor dat gebruik zijn gelicentieerd", aldus Stella Biderman, topvrouw van de AI-nonprofit.

Vooral in het geheim gebruikt

De goede voornemens zijn er dan misschien, er zijn toch twee grote problemen. Ten eerste zijn veel AI-taalmodellen al getraind met het auteursrechtelijk beschermd materiaal zonder toestemming, en die voortgang kan je niet zomaar terugdraaien – tenzij je peperdure taalmodellen weggooit. Ten tweede is niet bekend wie Books3 allemaal gebruikt hebben, omdat de dataset jarenlang vrijelijk was te downloaden.

De maker achter Books3, Shawn Presser, ontwikkelde de dataset juist om een monopolie op AI te voorkomen. Door een grote dataset voor iedereen beschikbaar te stellen, hoopt Presser te voorkomen dat alleen hele rijke bedrijven AI kunnen maken. Het is immers goed voor te stellen dat bedrijven als OpenAI, met 10 miljard dollar van Microsoft op zak, elke auteursrechtenzaak gewoon kunnen afkopen. Ook kan met zulk geld een eigen, totaal legale dataset worden aangelegd. "Zonder Books3 kan alleen OpenAI doen wat zij doen", zegt Presser.

Oplossing nog niet in zicht

Veel mensen die actief zijn in de AI-ontwikkeling vinden dan ook dat auteursrechtelijk materiaal onder 'fair use' zou moeten vallen, een soort uitgebreide versie van het citaatrecht. AI-makers stellen dat zij de teksten alleen gebruiken ter training, en niet om boeken te kopiëren of om AI-gegenereerde boeken uit te brengen die concurreren met boeken van menselijke schrijvers. Politiek en juridisch gezien is die strijd nog niet gestreden.

Als tussenoplossing denken bedrijven als OpenAI en Google aan methode waarbij kopiëren geoorloofd is tenzij schrijvers zelf aangeven dat zij dat niet willen: een zogenoemde opt-out. Sommige experts vinden dat de wereld op zijn kop, en hopen op het behoud van de huidige auteursrechtenbescherming. Hoe durven schrijvers anders nog het risico te lopen om jaren aan een boek te werken? En hoe is het te rechtvaardigen dat AI-makers straks veel geld verdienen aan taalmodellen, terwijl de schrijvers daar niks van terugzien?

Luister ook: alle AI-ontwikkelingen samengevat.

Meest recent Nieuws
Deze EV-batterij van Samsung is in 9 minuten opgeladen
4 uur en 13 minuten geleden
Nooit meer een CrowdStrike-storing? Deze verandering in Windows moet het voorkomen
5 uur geleden
Blijvende schade aan gecrashte chips van Intel: 'De patch lost niks op'
6 uur geleden
Komt de release van GTA 6 in gevaar door een grote staking?
7 uur geleden
Op dit gebied is Tesla nu ingehaald door de concurrentie
8 uur geleden
Deze update van Philips Hue jaagt inbrekers de stuipen op het lijf
9 uur geleden
Dit zijn de vijf beste elektrische auto’s voor op vakantie
10 uur geleden
VodafoneZiggo blijft maar klanten verliezen, nu ruim 100.000 in een jaar tijd
10 uur geleden
Zo zorg je dat X je berichten niet gebruikt voor het trainen van zijn AI
10 uur geleden
Windows en Android werken binnenkort beter samen
12 uur geleden
Adblockers hebben moeite met nieuw soort reclame op YouTube
12 uur geleden
Fortnite eindelijk weer naar iOS, maar game verdwijnt uit de Galaxy Store
13 uur geleden
Thuisbatterij van Zonneplan heeft nu 'zelfconsumptie': optimaal gebruik van je eigen zonnestroom
16 uur geleden
Acteurs staken weer, na films en series zijn nu games aan de beurt
18 uur geleden
Volvo lijkt terug te komen op EV-belofte en blijft in hybrides investeren
1 dag en 1 uur geleden
Dit lijkt de dikste fatbike van allemaal, maar hij is niet legaal
1 dag en 2 uur geleden
25 juli 2024
Dit weten we nu al over de nieuwe Google Pixel 9-telefoons
1 dag en 4 uur geleden
Sonos zegt sorry voor de app-problemen en komt met deze verbeteringen
1 dag en 6 uur geleden
Google moet nu écht oppassen want hier is SearchGPT
1 dag en 6 uur geleden
iPhones kunnen straks beter tegen een stootje dankzij dit nieuwe Apple-project
1 dag en 7 uur geleden
Deze handige functie van de Google-chatbot komt nu ook naar Nederland
1 dag en 7 uur geleden
Video
Opgelet: jouw iPhone lijkt zo op een Android
1 dag en 10 uur geleden
Project March XI laat lichter exoskelet zien met nieuw enkelgewricht
1 dag en 11 uur geleden
Amerikaans bedrijf wil een zonnepark in de ruimte bouwen
1 dag en 11 uur geleden
Wetenschappers in België gaan misdaden voorspellen met behulp van AI
1 dag en 12 uur geleden

Enorme berg data

Grote uitgevers

Vooral in het geheim gebruikt

Oplossing nog niet in zicht

Meest recent Nieuws

Deze EV-batterij van Samsung is in 9 minuten opgeladen

Nooit meer een CrowdStrike-storing? Deze verandering in Windows moet het voorkomen

Blijvende schade aan gecrashte chips van Intel: 'De patch lost niks op'

Komt de release van GTA 6 in gevaar door een grote staking?

Op dit gebied is Tesla nu ingehaald door de concurrentie

Deze update van Philips Hue jaagt inbrekers de stuipen op het lijf

Dit zijn de vijf beste elektrische auto’s voor op vakantie

VodafoneZiggo blijft maar klanten verliezen, nu ruim 100.000 in een jaar tijd

Zo zorg je dat X je berichten niet gebruikt voor het trainen van zijn AI

Windows en Android werken binnenkort beter samen

Adblockers hebben moeite met nieuw soort reclame op YouTube

Fortnite eindelijk weer naar iOS, maar game verdwijnt uit de Galaxy Store

Thuisbatterij van Zonneplan heeft nu 'zelfconsumptie': optimaal gebruik van je eigen zonnestroom

Acteurs staken weer, na films en series zijn nu games aan de beurt

Volvo lijkt terug te komen op EV-belofte en blijft in hybrides investeren

Dit lijkt de dikste fatbike van allemaal, maar hij is niet legaal

25 juli 2024

Dit weten we nu al over de nieuwe Google Pixel 9-telefoons

Sonos zegt sorry voor de app-problemen en komt met deze verbeteringen

Google moet nu écht oppassen want hier is SearchGPT

iPhones kunnen straks beter tegen een stootje dankzij dit nieuwe Apple-project

Deze handige functie van de Google-chatbot komt nu ook naar Nederland

VideoOpgelet: jouw iPhone lijkt zo op een Android

Project March XI laat lichter exoskelet zien met nieuw enkelgewricht

Amerikaans bedrijf wil een zonnepark in de ruimte bouwen

Wetenschappers in België gaan misdaden voorspellen met behulp van AI

Video
Opgelet: jouw iPhone lijkt zo op een Android