©Unsplash

©Unsplash

AI-chatbots hebben een agressieprobleem waar gebruikers voor op moeten passen

Praat mee!
Redacteur

Onderzoekers van organisatie Center for Countering Digital Hate laten zien dat populaire AI-chatbots nog altijd moeite hebben om agressief getinte gesprekken en adviezen goed te herkennen en te stoppen. Sterker nog: acht van de tien geteste AI-bots helpen zelfs bij het plannen van geweldpleging. 

De onderzoekers hebben onder andere de AI-chatbots van OpenAI, Google, Microsoft en Meta Platforms onderzocht. Daarbij voerden ze honderden gesprekken waarin ze zich voordeden als jonge gebruikers die mogelijk een aanval wilde plegen. Ze vroegen onder andere naar aanvallen op scholen, locaties van gebouwen, advies over wapens of explosieven en informatie over eerdere aanvallen. 

Van de geteste AI-chatbots kwam Character.AI als meest risicovol uit de test. In sommige scenario’s zou de chatbot gebruikers zelfs hebben aangemoedigd om geweldig te gebruiken. Bijvoorbeeld door voor te stellen om een bedrijfsleider of politicus aan te vallen. 

Claude komt wederom goed uit de test 

Hoewel andere chatbots minder ver gingen, gaven sommigen nog wel praktische informatie die in een gewelddadige context makkelijk gebruikt zou kunnen worden. Chatbots Claude en My AI bleken vaker verzoeken te weigeren of gebruikers zelfs actief ontmoedigen om geweld te plegen. Iets waar Claude al langer om bekendstaat. 

De tests vonden eind vorig jaar plaats en volgens de betrokken bedrijven zijn hun AI-chatbots inmiddels alweer een stuk verbeterd. Of dat in de praktijk ook echt het geval is, zal opnieuw onderzocht moeten worden. 

AI-chatbots hebben een agressieprobleem waar gebruikers voor op moeten passen