OpenAI en Anthropic negeren verzoeken van websites in robots.txt-bestanden om niet gescrapet te worden. Dat las ik bij Tweakers. Dat is opmerkelijk, want eerder meldde men nog dit wel te gaan doen. De reden is onduidelijk, mogelijk heeft het te maken met het onderscheid tussen “crawlen om AI-trainingsvoer te vinden” en “crawlen om bronnen te vinden waarmee AI-uitvoer ondersteund wordt”.

Dit is dus precies waarom robots.txt niet de oplossing is voor dit probleem. Robots.txt is ooit gemaakt om boteigenaren aan te geven waar de website-eigenaar problemen verwachtte, zoals bij cgi-bin scripts of URL’s met sessieparameters of mappen waar toch niets te halen viel. Dat was handig voor de boteigenaar want dat scheelt netwerkverkeer en rotzooi weggooien.

Hier gaat het niet om elkaar helpen maar om een verbod: je mag deze site/content niet gebruiken voor jouw tekst en datamining. Ook niet als je het voorzichtig doet. Daar zit een juridisch haakje aan, artikel 15o van onze Auteurswet (gebaseerd op Europese regels) zegt dat TDM mag tenzij er een machineleesbare optout is gegeven.

Het probleem: iets is pas machineleesbaar (=zonder menselijke tussenkomst te interpreteren) als daar een standaard voor is. En die is er niet. Dus dan krijg je dat men iets pakt dat er op lijkt, namelijk robots.txt en daar dan doet alsof je een verbód uitspreekt als je zegt “GPTbot disallow *”. Dit werkt om meerdere redenen niet, al is het maar omdat je alleen per bot kunt uitsluiten en niet per soort gebruik (wel voor je zoekmachine, niet voor je dataset).

We hadden in de jaren nul hetzelfde met het Automated Content Access Protocol, dat geen succes werd omdat er geen consensus was dat je dit moest willen. En er zijn diverse pogingen om een “ai.txt”-achtige standaard te zetten, maar die hebben allemaal hetzelfde probleem: waarom zou ik dat ondersteunen? Als ik dat doe, mag ik dingen niet die de concurrent wel mag (want die ondersteunt het niet).

De enige route is dat de wetgever een standaard bindend voorschrijft, dit is hoe jij uitgever het opschrijft en daar ga jij crawlerbaas elke keer verplicht kijken voordat je verder crawlt. Maar het Europese standaardisatieproces duurt jaren. Ik ben dus heel benieuwd hoe hier een standaard geforceerd gaat worden. Een dappere rechter die durft te zeggen “genoeg uitgevers gebruiken formaat X, dat is dan vanaf vandaag maar standaard”.

Arnoud