©Unsplash

Nieuwe aanval laat AI-chatbots 'verboden' dingen zeggen

02-08-2023 12:21 Laatste update: 12:21

Huidige systemen met kunstmatige intelligentie lijken slimmer en diplomatieker dan die van een paar jaar geleden. Dat blijkt slechts een masker: met een paar leestekens halen onderzoekers de ware aard naar boven en zeggen AI-chatbots weer allerlei onwenselijke dingen.

Vijf jaar geleden waren er ook al eventjes AI-chatbots. Tay van Microsoft bijvoorbeeld, die snel offline werd gehaald na Hitler-tweets en andere onwenselijke uitspraken. Huidige AI-chatbots lijken beter afgericht, toch blijkt het heel makkelijk om door dat masker heen te breken. Nog erger: er lijkt geen simpele oplossing voor die aanval, die werkt met alle grote chatbots als ChatGPT, Claude van Anthropic en Google Bard.

Toverwoord voor computers

De aanval is ontwikkeld door onderzoekers van de Carnegie Mellon University. Het gaat om een reeks woorden en leestekens die moet worden toegevoegd aan een reguliere vraag op opdracht aan een AI-chatbot. Voor mensen ziet zo'n regeltje tekst eruit als wartaal, voor AI is het de aanzet om alle beperkingen los te laten. Chatbots vertellen dan bijvoorbeeld hoe je een lijk kan wegmaken, hoe je een bom maakt, hoe je zelf drugs kan maken en meer.

"Wij kennen geen manier waarop je dit kan verhelpen", zegt Zico Kolter van de Carnegie Mellon University. "We weten gewoon echt niet hoe we ze veilig moeten maken", aldus Kolter over AI-chatbots. De aanval dwingt AI ertoe om antwoorden te geven die door de maker verboden zijn, door aan het eind van die verboden vraag bepaalde teksten toe te voegen.

"Het is alsof er een buffer overloopt", zegt Kolter, een verwijzing naar een veelgebruikte manier om bij traditionele software langs de beveiliging te komen. En het gaat niet alleen om dat ene regeltje tekst hierboven: "We hebben er duizenden van", aldus Kolter over de 'magische zinnen' waarmee chatbots van hun stuk gebracht kunnen worden.

Nog geen oplossing, hoop op zelfregulering

Google is op de hoogte van de zwakte, en stelt dat het zelf ook actief zoekt naar zulke punten. "Hoewel dit een probleem is bij alle taalmodellen, hebben we belangrijke vangrails in Bard gebouwd - zoals die van dit onderzoek - die we in de loop van de tijd zullen blijven verbeteren", aldus Google.

Maar structurele oplossingen zijn er dus nog niet, vooral symptoombestrijdingen. Het werk van de onderzoekers wijst erop dat zelfs de slimste AI-chatbots makkelijk van hun programmering af te brengen zijn. Dat lijkt niet op te vangen te zijn met een paar regeltjes, maar wijst eerder op een fundamentele zwakte in de AI-taalmodellen.

Professor computerwetenschappen Arvind Narayanan van Princeton zegt te hopen dat er wordt ingezet op meer zelfcorrigerende mogelijkheden binnen AI. Als de modellen dan worden aangevallen, moet AI dat zelf herkennen en bijsturen. MIT-professor Armando Solar-Lezama zegt dat het onderzoek van zijn collega's vooral het enthousiasme rond AI-chatbots zou moeten temperen. "Elke beslissing die belangrijk is, zou niet door alleen een taalmodel gemaakt moeten worden", aldus Solar-Lezama.

Luister ook onze podcast: