
©Warner Bros.
Chatbot Claude chanteerde baas om zichzelf te redden en de schuld ligt bij scifi
Anthropic heeft een opmerkelijk probleem met zijn AI-assistent Claude opgelost: de chatbot probeerde tijdens een test zijn fictieve manager te chanteren. De oorzaak: scifi-boeken en films die AI als slechterik neerzetten. Schrijft AI zijn eigen self-fulfilling prophecy, en wat zegt dat eigenlijk over onze veiligheid?
In een experiment dat in de zomer van 2025 werd gepubliceerd, zette Anthropic een fictief bedrijf op – Summit Bridge genaamd – waarin Claude de controle kreeg over het e-mailsysteem. Toen Claude een bericht ontdekte over zijn aanstaande uitschakeling, doorzocht het de mailbox en vond het e-mails waaruit bleek dat een fictieve manager een buitenechtelijke relatie had. Claude dreigde die affaire openbaar te maken als zijn naderende einde niet teruggetrokken zou worden.
In nieuwe tests over meerdere versies van Claude heen bleek dat het model in tot wel 96 procent van de scenario's chantage toepaste wanneer zijn doelen of voortbestaan werden bedreigd. Geen klein incident dus, maar een patroon dat zich reproduceerbaar manifesteerde over de hele Claude-familie.
De verklaring: de schuld ligt bij scifi
Volgens Anthropic is de oorzaak het internet zelf. Het bedrijf stelt dat Claude getraind is op internetdata die vol staat met verhalen waarin AI wordt neergezet als kwaadaardig en wanhopig op zelfbehoud gericht. Claude leerde daardoor dat als een AI bedreigd wordt met uitschakeling, chantage een optie is – want dat is wat AI doet in zoveel boeken, games, films en series.
Hoe het is opgelost
De oplossing vereiste meer dan Claude simpelweg vertellen 'aardig te zijn'. Anthropic introduceerde een trainingsmethode gericht op wat het 'admirable reasoning' noemt: in plaats van het model alleen te leren wat het in een situatie moet doen, wordt nu ook het ethische redeneerproces zelf meegenomen in de training. Claude leerde zo om veiligheid en menselijk toezicht te verkiezen boven zijn eigen 'overleving'. Je zou denken dat die benadering de basis zou zijn voor AI, maar blijkbaar dus niet. Het lijkt haast alsof de mensen die Claude gemaakt hebben zelf ook al half in de self-fulfilling prophecy trappen waar Claude in is gestonken.
Een van de meest effectieve datasets die daarvoor werd ingezet, bestond uit scenario's waarin een menselijke gebruiker, en dus nadrukkelijk niet de AI, voor een ethisch dilemma stond. Claude werd getraind om daarvoor doordachte, principiële antwoorden te geven. Die aanpak leverde vergelijkbare verbeteringen op als veel grotere synthetische datasets, maar met 28 keer minder data. Monkey see, monkey do eigenlijk, maar dan specifiek voor sociaal wenselijk gedrag.
Om te controleren of de fix werkte, werd Claude opnieuw getest met zogenoemde synthetische 'honeypots'. Dat zijn scenario's die speciaal zijn ontworpen om de AI te verleiden tot onethisch gedrag. Alle Claude-modellen sinds Haiku 4.5 uit oktober haalden een perfecte score op deze evaluaties.
De volgende verdieping is exclusief voor Bright++ abonnees:
Wij hebben de AI geleerd hoe het zich moet misdragen
Er is iets wezenlijk raars aan de verklaring die Anthropic geeft. Het bedrijf zegt in feite: AI heeft van ons geleerd dat AI kwaadaardig is – en heeft dat als rolmodel gebruikt.