Onlangs blogde ik over “Afrikaanse” machine learning, wat een leuke discussie opleverde maar ook veel vragen over wanneer je nu een computersysteem “westers” moet noemen. Een computer past geen culturele waarden toe, bijvoorbeeld, die telt 1 en 1 bij elkaar op en dat is gewoon 2. Daar is niets Chinees, Ubuntu of neoliberaals aan. Een reactie van Ronald gaf me aanleiding hier eens verder over na te denken, want het raakt aan een fundamenteel punt rondom de effectiviteit en het nut van AI.

Volgens mij is het “Westerse” versus “Afrikaanse” aspect van een machine learning systeem meer wát je gaat leren en waarvan. Zoals ik Mhlambi begrijp, is het verschil in culturen dat je in de Westerse uitgaat van het individu, en in het Afrikaanse/Ubuntu model uitgaat van de groep. Je verzamelt dan andere data (hoe gedraagt de groep zich, wat wil de groep en hoe reageert de groep) en krijgt daarmee ook een ander model.

Meer algemeen groeit een AI (wat ik zie als een marketingterm voor “machine learning met een menssimulerende interface”) natuurlijk op basis van wat je erin stopt. En dan is dus de keuze van wat je in je dataset stopt de kern. Die keuze is dan cultureel bepaald. En natuurlijk rekent de computer zelf niet cultureel bepaald, het is meer hoe hij is vormgegeven. Een oude ergernis van me: dat computers zo slecht met accenten kunnen omgaan, komt omdat het toetsenbord uit de Amerikaanse cultuur/maatschappij komt waar accenten niet voorkomen. Ik zou dan zeggen dat tekstinvoer Amerikaans-cultureel is bepaald, maar als je liever zegt dat de ontwerpers dat zijn, ook prima.

Goed, een concreter voorbeeld. Stel ik wil de chat in mijn videogame via AI modereren. Die moet ongewenste chatberichten eruit vissen, zodat de kwaliteit van de onderlinge praatjes beter werkt. Ik train dan met spamdatasets want ik weet dat spam heel vervelend is, en gooi er ook racisme in want dat is tegenwoordig ook een ding. Dan krijg je een prachtige moderator – alleen doet die niets tegen seksueel lastigvallen, want ik vond dat geen issue. Heb ik dus geen data van. Vrouwelijke spelers denk ik wel, die zouden wellicht daar eerder op filteren. Of bedenken dat er een dickpic filter op toegezonden beeld moet komen. Dat zijn voor mij echt andere gezichtspunten, niet alleen maar een neutrale selectie van data.

Maar je zou ook kunnen zeggen, de dataset wordt gelabeld langs de lijn “is een teamspeler” versus “speelt individualistisch/doet niet leuk mee” en dan krijg je wéér een heel andere AI. En daarbij zou de aard van het spel en de samenstelling van de deelnemers veel uitmaken. Hebben we jonge Westerse mannen, of juist oudere Australische vrouwen? Gaat het om schieten (dus veel korte en snelle communicatie) of is het een langlopende puzzel hunt met dus veel overleg, discussie, filosofie? Al die dingen wegen mee in hoe je “modereer een chat” invult.

Het gaat dus niet om of de AI iets ‘begrijpt’ maar op welke manier deze functioneert. Welke aannames stop je erin bij het bouwen, welke data neem je mee en welke niet. Vanuit welke filosofie zeg je “dat gegeven is niet relevant” of “ik heb liever dat hij stuurt op A dan op B”. Dát is volgens mij waar het om gaat.

Arnoud

Source