© Rafael Matsunaga

De gevaren van big data en algoritmes

De gevaren van big data en algoritmes

12-01-2017 19:19 Laatste update: 27-04-2018 00:24

Wiskundige Cathy O'Neil waarschuwt voor 'weapons of math destruction': verkeerd gebruik van data en algoritmes leidt tot onterechte veroordelingen en ontslagen.

De beloftes van big data zijn enorm. Dankzij de grote berg gegevens die tegenwoordig ter beschikking staan aan bedrijven, wetenschappers en overheden kunnen we epidemieën veel sneller ontdekken, we kunnen voorspellen hoe lekker de wijn gaat smaken van de druiven die nog geplukt moeten worden, en we kunnen bepalen waar de kans op criminaliteit het grootst is en waar de politie dus extra moet patrouilleren. 

Alleen maar voordelen dus? De Amerikaanse wiskundige Cathy O'Neil is aanmerkelijk minder enthousiast over de zegeningen van de mathematische modellen die gebruikmaken van big data. 'Weapons of math destruction', noemt ze dergelijke modellen in haar gelijknamige boek. Want hoewel de rekenkundige modellen vaak met de beste bedoelingen worden opgezet, kunnen ze volgens O'Neil compleet verkeerd uitpakken.

Ze ondervond dat zelf tijdens haar werk als kwantitatief analist voor een hedge fund bij het uitbreken van de financiële crisis. De modellen die de financiële sector gebruikte om te handelen, om risico's te bepalen en om de toekomst te voorspellen, bleken van de ene op de andere dag niet te kloppen. Gebeurtenissen die volgens tal van financiële modellen slechts eens in de miljoen jaar zouden kunnen voorkomen, vonden plotseling tientallen keren per dag plaats.

De gevolgen zijn bekend. De financiële crisis die in 2007 begon, zorgde wereldwijd voor de grootste economische crisis sinds de jaren dertig. "De crash maakte duidelijk dat wiskunde niet alleen diep verknoopt was met de grote problemen die de wereld plaagden, maar ook dat wiskunde in veel gevallen de oorzaak van al die problemen was", schrijft O'Neil. "De huizencrisis, de ineenstorting van grote banken, de stijging van de werkloosheid: ze waren allemaal mede veroorzaakt door wiskundigen en hun toverformules."

Cathy O'Neil

Ontslagen door een algoritme

De grootste problemen met de modellen die de financiële sector gebruikte, waren dat risico's compleet verkeerd werden ingeschat en dat de aannames waarop de modellen waren gebaseerd, niet klopten. Vergelijkbare problemen zien we terug op tal van andere plaatsen waar rekenkundige modellen worden ingezet om de bedrijfsvoering te verbeteren en de omzet te verhogen, betoogt O'Neil.

Ze verhaalt in haar boek van Sarah Wysocki, een docente uit Washington DC die ondanks goede beoordelingen van de rector en de ouders van haar leerlingen werd ontslagen. De reden: een slechte score bij de jaarlijkse evaluatie van de gemeente. Wysocki zat bij de 200 slechtste docenten van de stad en werd om die reden op straat gegooid.

Maar hoe werkten de algoritmes op basis waarvan de leraren werden afgerekend eigenlijk? Docenten die daarnaar informeerden, werden door het stadsbestuur afgescheept met de mededeling dat de modellen 'erg complex' waren. Een bezweringsformule die de gebruikers van 'weapons of math destruction' vaker inzetten om mensen met lastige vragen af te poeieren, schrijft O'Neil: organisaties en bedrijven geven liever geen openheid van zaken.

Ondanks de onwil bij de gemeente om informatie te delen over de gebruikte algoritmes valt er toch het nodige te zeggen over de werking van het model op basis waarvan de docenten in Washington DC werden beoordeeld: het model probeerde vooral te becijferen hoeveel beter de kinderen waren geworden door de docent. Daarvoor werden de cijfers van de leerlingen bij taal- en rekentesten vergeleken met de scores van een jaar eerder. Waren de kinderen er flink op vooruit gegaan, dan was dat blijkbaar te danken aan de docent, die daarmee een flinke bonus kon opstrijken: de beste leraren konden een extra beloning ontvangen van wel 8.000 dollar. 

Een perverse prikkel die ertoe leidde dat menige docent valsspeelde bij de testen, zo bleek later uit onderzoek. Docenten verbeterden de foute antwoorden van hun leerlingen om zo hogere scores te halen. En daar werd Wysocki het slachtoffer van. Bij de testen in het voorgaande leerjaar scoorden haar leerlingen uitstekend, maar toen ze bij haar in de klas kwamen bleken ze in sommige gevallen nog nauwelijks te kunnen lezen.

Zwart? Dan krijg je een hogere straf

Wysocki is een duidelijk aanwijsbaar slachtoffer van het blinde geloof in algoritmes. In andere gevallen is het een stuk moeilijker om de benadeelden van rekenkundige modellen aan te wijzen. Terwijl die er wel degelijk zijn volgens O'Neil.

Zo maken openbaar aanklagers en rechters in de Verenigde Staten gebruik van mathematische modellen die de kans op recidive moeten voorspellen. Is die kans groter, dan krijgt een veroordeelde een hogere straf: de samenleving moet immers worden beschermd tegen criminelen die na vrijlating meteen weer de wet overtreden. 

De gebruikte modellen zijn echter zo gebouwd dat ze zwarte verdachten benadelen: die zouden volgens de algoritmes vaker opnieuw in de fout gaan. Niet omdat dat ook echt zo is, maar omdat er in die modellen rekening wordt gehouden met zaken als eerdere contacten met de politie. Omdat zwarten sowieso al vaker worden staande gehouden door de politie dan blanken, hebben ze dus ook vaker 'contact' gehad met de politie en is de kans volgens het model groter dat ze opnieuw een misdrijf zullen begaan.

Zo worden zwarten vaker benadeeld. Niet omdat er in modellen direct rekening wordt gehouden met hun huidskleur - dat zou immers discriminatie zijn - maar wel indirect. Bij het vaststellen van iemands kredietwaardigheid wordt bijvoorbeeld gekeken naar de buurt waar die persoon woont. Woon je in een buurt met veel zwarte bewoners, dan is je credit score lager, want uit het model blijkt nu eenmaal dat mensen in die buurt minder geld hebben en vaker moeite hebben met het aflossen van hun leningen. Dat betekent niet alleen dat je vanwege de buurt waar je woont, moeilijker kunt lenen, maar ook dat je minder kans hebt op een baan. Want sommige Amerikaanse werkgevers laten ook iemands credit score meewegen bij het aannamebeleid, schrijft O'Neil.

Inspelen op onzekerheden

Er zijn meer op big data gebaseerde modellen in omloop die werkgevers gebruiken om uit het aanbod van sollicitanten de 'beste' werknemers te vinden. Daaraan kleven volgens O'Neil twee nadelen. Om te beginnen blijken de gebruikte modellen nauwelijks iets te zeggen over de kwaliteit van de sollicitanten. Daarmee blijft allerlei talent onbenut. En dat leidt tot een nieuw probleem: de kandidaten die ongeschikt worden verklaard, hebben een kleinere kans op een baan en doen zo dus minder werkervaring op - hetgeen hun carrière niet ten goede komt.

Zo ontstaat er een vicieuze cirkel. En ook dat fenomeen ziet O'Neil geregeld terugkeren. Kijk bijvoorbeeld naar de advertenties die je krijgt voorgeschoteld op internet. Adverteerders en internetbedrijven als Facebook en Google kunnen dankzij alle informatie die ze over ons verzamelen goed voorspellen wat werkt en wat niet. Zo blijkt dat vrienden op Facebook die vaak op elkaar reageren, ook eerder geneigd zijn om op dezelfde advertenties te klikken.

Op het eerste gezicht wellicht onschuldig: advertenties waarop zoveel mogelijk wordt geklikt, wat is daar nou mis mee? Volgens O'Neil schuilt er echter wel degelijk een gevaar in deze benadering. Omdat partijen als Google dankzij onze zoekgeschiedenis alles weten van onze diepste zielenroerselen, is het voor adverteerders makkelijker om in te spelen op onze grootste angsten.

In een datacenter van Facebook

Wie onzeker is over zijn seksleven zal eerder reclame voor Viagra krijgen voorgeschoteld. Wie financiële zorgen heeft, krijgt juist advertenties van dubieuze leningboeren die proberen je een lening met een hoge rente aan te smeren: waardoor je uiteindelijk alleen maar verder in de financiële problemen belandt.

Op die manier dragen de 'weapons of math destruction' volgens O'Neil bij aan de groeiende ongelijkheid in de westerse wereld. Wie rijk is en geen gat in zijn hand heeft, krijgt immers geen reclame voor te dure leningen te zien. Net zoals het gebruik van twijfelachtige testen bij de selectie van geschikte werknemers in de Verenigde Staten vooral populair is bij banen aan de 'onderkant' van de arbeidsmarkt. Wie solliciteert als advocaat of manager wordt gewoon ouderwets beoordeeld in een gesprek.

Daardoor dreigt de tweedeling in de samenleving alleen maar verder toe te nemen, waarschuwt O'Neil: schijnbaar neutrale modellen pakken slecht uit voor mensen die het toch al niet getroffen hebben in het leven terwijl de voorhoede van de samenleving nergens last van heeft. 

Net als bij andere sociale misstanden ligt er volgens O'Neil een taak voor de overheid om in te grijpen: ze pleit voor regelgeving om algoritmes die leiden tot discriminatie en grotere ongelijkheid, tegen te gaan. Ook de makers van dergelijke modellen zouden zich volgens haar veel meer bewust moeten worden van de mogelijk nadelige gevolgen van hun algoritmes. Met haar boek levert ze in ieder geval een belangrijke bijdrage aan die bewustwording. 

(Foto's: Rafael Matsunaga, Michelle Collins, Laura McHugh)