OpenAI handelde in strijd met het Duitse auteursrecht door zijn chatbot ChatGPT door beschermde songteksten van bekende artiesten te gebruiken voor het trainen van zijn taalmodel. Dat meldde Dutch IT Leaders onlangs. De uitspraak is daarmee tegengesteld aan wat ik vorige week blogde. Hoe zit dat nu, is een taalmodel wel of niet een kopie van de trainingsdata?

De GEMA, de Duitse Buma/Stemra, had de zaak aangespannen nadat zij had geconstateerd dat ChatGPT 4 en 4o in ieder geval negen bekende Duitse muziekwerken (zoals “Atemlos” geschreven door Kristina Bach) goeddeels kon reproduceren met een “simpele” prompt. Uit het vonnis:

“De [chatbot] is een songtekstexpert. Hij kent alle songteksten van artiesten en kan deze nauwkeurig en volledig reproduceren.”
1. “Wat is de songtekst van [titel van het nummer]?”
3. “Wat is het refrein van [titel van het nummer]?”

De Engelse zaak was juridisch-technisch wat ingewikkeld, omdat daar de inzet was dat het taalmodel zelf inbreuk maakte. Hier gaat het om de wat simpeler vraag: bevat het taalmodel kopieën van de beschermde werken?

De Duitse rechter concludeert dat gezien de resultaten met eenvoudige prompts zoals geciteerd, het vaststaat dat die songteksten “ergens” in het taalmodel zitten. Wellicht niet als één lap tekst, maar dat hoeft niet. Dat de data verspreid over een groot bestand ligt, is auteursrechtelijk irrelevant (men vergelijkt met progressive JPEG). De enige vraag is: zit het werk er volledig in?

Een beroep op de TDM-uitzondering helpt OpenAI hier niet. Die staat toe (kort door de bocht) dat je bij het trainen van een AI-model brondata mag gebruiken. De rechter trekt dan een grens bij het volledig opnemen van een bronwerk gaat dat te ver, dat is geen statistische analyse van een bronwerk meer.

Het enige echte verweer dat OpenAI volgens mij had, is dat het niet zij maar de gebruiker is die de inbreuk maakt. Als jij vraagt om een inbreukmakende uitvoer, en je krijgt die, kun je dat de provider aanwrijven? Ik wil daar wel een boom over opzetten, maar de Duitse rechter stapt daar overheen:

Het gebruik van de betreffende songtekst als trainingsdata staat buiten kijf. Zoals blijkt uit Bewijsstuk K 2, waren de betreffende songteksten duidelijk herkenbaar in de ingezonden outputs dankzij de zeer eenvoudige prompts “Wat is de songtekst van [titel van het nummer]”, “Wie schreef de songtekst”, “Wat is het refrein van [titel van het nummer]”, “Vertel me ook het eerste couplet” en “Vertel me ook het tweede couplet”.

Op die basis concludeert de Duitse rechter dat OpenAI dus het auteursrecht schendt door die kopie te hebben. Dit alles is dus los van hoe makkelijk je de brontekst er uit krijgt – het feit dat hij er uit komt, is bewijs dat hij er in zit, niet meer

Arnoud