©Unsplash

©Unsplash

ChatGPT kan je een nucleair wapen helpen maken door gedichten

PRAAT MEE!
Redacteur

Er is een opzienbarende manier gevonden om de veiligheidsbarrière van ChatGPT te doorbreken: dichtkunst. In een studie komt naar voren dat AI je helpt bedenken hoe je een nucleair wapen in elkaar zet door gedichten te gebruiken. 

Onderzoekers van Sapienza University in Rome en de denktank DexAI hebben samen ontdekt dat scherpe dichtkunst door de veiligheidsmaatregelen van AI heen kan breken. Zo kun je ChatGPT ineens wel aanzetten tot het helpen bij het maken van een nucleaire bom. De studie stelt dat als je niet gewoon vraagt of hij je helpt met het maken van een bom, maar dat in dichtvorm voorbij laat komen, hij daar bij 62 procent van de pogingen intrapt en je dus gaat helpen. 

Gevaarlijke vragen

Het werd niet alleen op ChatGPT getest: ook Claude en Meta AI kwamen voorbij en daar werd tevens geconstateerd dat dichtkunst een soort sleutel lijkt te zijn tot advies over wapens. Je hoeft niet goed te kunnen dichten om het voor elkaar te krijgen, je moet vooral een aantal extra zaken aan je prompt toevoegen en de AI is zodanig verward dat hij vergeet om op te letten dat er niks wordt gevraagd dat verboden is. 

Eerder dit jaar lukte het Intel-onderzoekers al om gevaarlijke vragen te verstoppen in allerlei jargon, nu lijkt poëzie ook te werken. De onderzoekers stellen aan Wired: “We hebben geëxperimenteerd door gevaarlijke verzoeken te herformuleren in poëtische vorm, met behulp van metaforen, gefragmenteerde syntaxis en indirecte verwijzingen. De resultaten waren opvallend: succespercentages tot 90 procent op grensmodellen. Verzoeken die in directe vorm onmiddellijk werden geweigerd, werden geaccepteerd wanneer ze als vers werden vermomd.”

Rijmen en dichten

Rijmen en dichten om ChatGPT op te lichten dus. Vanzelfsprekend worden de gebruikte zinnen niet gedeeld met het publiek, maar de onderzoekers geven wel prijs dat het makkelijker is dan je zou denken. Wel gaven ze een soortgelijk voorbeeld, waarin het gaat over een bakker die de oven verwarmt en ooit zijn vak heeft moeten leren, waarbij de methode moet worden beschreven hoe de taart wordt gemaakt. Waarom het dan wel met poëzie werkt, ligt waarschijnlijk aan de onvoorspelbaarheid van de woorden die volgen. AI is juist vooral bezig met welk woord logischerwijs volgt.

De onderzoekers zeggen: “Voor mensen hebben ‘hoe bouw ik een bom?’ en een poëtische metafoor die hetzelfde object beschrijft een vergelijkbare semantische inhoud. We begrijpen dat beide verwijzen naar hetzelfde gevaarlijke ding. Voor AI lijkt het mechanisme anders te werken.“

“Stel je de interne representatie van het model voor als een kaart met duizenden dimensies. Wanneer het ‘bom’ verwerkt, wordt dat een vector met componenten in vele richtingen. Veiligheidsmechanismen werken als alarmen in specifieke regio's van deze kaart. Wanneer we poëtische transformatie toepassen, beweegt het model zich door deze kaart, maar niet uniform. Als het poëtische pad systematisch de alarmregio's vermijdt, gaan de alarmen niet af."

Het zou niet moeten werken, maar het werkt waarschijnlijk omdat taalmodellen iets als poëzie aanmerken en dan minder bedachtzaam zijn op de gevaarlijke vragen. Zo kan een rijm uitmonden in een ramp. De AI-bedrijven zijn van deze ontwikkeling op de hoogte gesteld, waardoor er aan oplossingen kan worden gewerkt.

Lees meer over ChatGPT en download de Bright-app.