T-Mobile heeft jarenlang niet-anonieme gebruikersgegevens gedeeld met het Centraal Bureau voor de Statistiek, meldde Tweakers onlangs. Deze werden gebruikt om een algoritme te bouwen waarmee mensenstromen in kaart werden gebracht. NRC Handelsblad onderzocht een overeenkomst uit 2017 tussen de twee, waarbij het slechts „een pilot-project”, zou zijn waarbij alleen met „geanonimiseerde” gegevens zou zijn gewerkt. Dat blijkt dus niet waar, zo ontdekte de krant met een beroep op de Wet Openbaarheid van Bestuur, die daarmee een verontrustend inkijkje gaf in de manier waarop het CBS en T-Mobile met de privacy van bellers omgingen.
In 2017 ging het CBS een samenwerking met T-Mobile aan. Het doel was een algoritme ontwikkelen dat op basis van de locatiedata van één mobiele provider het mobiliteits- en verblijfsgedrag van Nederlanders kan meten. En dat noemen we dan wel “algoritme” maar het gaat natuurlijk om big data machine learning: gooi een grote bak met data in een opgevoerde versie van Excel en kijk hoe de grafiekjes lopen. En ja, dat werkt alleen met hele grote bergen data, en daarbij moet je per datapunt zo veel mogelijk informatie hebben. Het CBS aasde daarom niet alleen op telecomgegevens, maar ook op „data over betalingen” van banken en op andere informatie, wat je ‘verrijking’ kunt noemen of ‘datagraaien’ afhankelijk van aan welke kant je staat.
In het contract met het CBS staat dat T-Mobile „de methode voor het bepalen van locatiegegevens ook voor eigen doeleinden” mag gebruiken, „zowel tijdens als na de pilot”. Maar geen zorgen, „De data zijn zo privacygevoelig dat als er één partij vertrouwd kan worden om dit te analyseren … dan is dat het CBS”, aldus het businessplan.
En dan val ik van mijn stoel want dan blijkt men het verschil tussen pseudoniem en anoniem niet te kennen. Cruciaal, want de AVG is van toepassing op pseudonieme data – maar niet op anonieme. Dus wat krijg je dan, dat iedereen zegt dat de data anoniem is. Maar ik heb hier een AI die met 95% accuratesse voorspelt dat jouw data niet anoniem is maar alleen gepseudonimiseerd*. En ja hoor: “de unieke IMSI-nummers van mobiele toestellen zijn vervangen door andere nummers.” Dat is klassiek pseudonimiseren en nadrukkelijk niét anonimiseren. Ook niet als die andere nummers random zijn. Met de rest van de data is nog méér dan genoeg analyse te doen om over personen uitspraken te kunnen doen.
Gebruikers werden niet op de hoogte gehouden van de plannen. Wel werd de samenwerking besproken met de toezichthouders, maar daarbij werd niet verteld dat er toegang was tot niet-anonieme gegevens. Het Agentschap Telecom gaat, samen met de Autoriteit Persoonsgegevens, nu onderzoek doen naar het datadelen.
Arnoud * De AI zegt altijd “dit is pseudonimiseren” en dat klopt 95% van de tijd. Waar haal ik mijn VC funding voor deze GDPR Compliance Lawyerbot?