ahmedgad / Pixabay
De beslissing van bibliotheekorganisatie NBD Biblion om boekrecensies voortaan uitsluitend te laten produceren door AI leidt tot heftige reacties. Dat las ik in tijdschrift Neerlandistiek. Niet in het minst omdat de 700 menselijke recensenten nogal onverwacht met ontslag werden gestuurd, maar ook omdat het voelt als een verschraling: de handgeschreven recensies in bloemrijke taal worden nu vier schuifjes: activiteit (van relax naar concentratie); stemming (van vrolijk naar duister); seks (van geen naar veel); geweld (van geen naar veel). Wie wordt daar blij van?
Wie een paar voorbeelden wil: klik hier. De achterliggende boosheid lijkt met name op de gedachte te rusten dat het recenseren van boeken toch een zuiver menselijke activiteit is, die je niet aan een robot/AI kunt overlaten. Het raakt aan de fundamentele discussie of een AI nu wel of niet goed een tekstanalyse kan maken.
Een aantal lezers vroeg me dan ook, geldt ditzelfde niet ook voor jouw contractenrobot? Niet helemaal, denk ik. Bij analyseren van een zakelijke tekst zoals een contract zoek je naar concreet wat er staat. Welke looptijd heeft dit, wordt hier AVG compliant afgesproken, wat is het plafond qua aansprakelijkheid. Daar zit natuurlijk een stukje interpretatie in (denk aan “hoe streng zijn de security-eisen”) maar dat gaat op een vaste manier, en je kunt dat meten.
Een boekrecensie is naar zijn aard een stuk persoonlijker. Zoals ze bij Neerlandistiek schrijven:
Presteert een groep van om en nabij de zevenhonderd mensen beter dan een paar digitale bots die boeken beschrijven? In de zevenhonderd menselijke hoofden in deze groep zitten allerlei cultureel bepaalde aannames over wat een goed geschreven boek is. Er zitten ook allerlei subjectieve meningen in over welke onderwerpen belangrijk en interessant zijn, over welke verhalen saai zijn, wat cliché-beeldspraak is en over wat een mooie stijl is.
Het laat wel zien hoe moeilijk het dan is om uit zo’n dataset de relevante informatie te halen waarmee je goede uitspraken kunt doen. Bij Tzum citeren ze bijvoorbeeld het boek Alexandra:
De computer vindt dat er niet heel veel geweld in Aleksandra voorkomt en je vraagt je af hoe de computer de communistische terreur, de Tweede Wereldoorlog, de oorlog op de Krim met plunderingen en moorden beoordeelt met een schuifje bij geweld dat in het midden staat.
Het gevaar dat hier achter zit, is dat het systeem getraind is op boeken waarbij geweld een heel andere rol speelt, denk aan Scandinavische moord-detectives. Dan is een verhaal met als achtergrond de oorlog op de Krim niet zo gewelddadig inderdaad.
Het zou een mooie case zijn, zoals ze bij Neerlandistiek bepleiten, om dit algoritme eens helemaal door te lichten. Op welke data is getraind, hoe zijn de labels tot stand gekomen, hoe worden uitkomsten periodiek bijgesteld? Omdat het om boeken gaat, is daarbij geen AVG-risico (zoals vaak bij AI het probleem is).
Arnoud













