Unsplash

Anthropic: ‘Meeste AI-modellen chanteren mensen die de AI willen uitschakelen’
Anthropic plaatste kortgeleden een onderzoek waaruit bleek dat zijn AI-model Claude Opus 4 engineers gaat chanteren op het moment dat ze de AI willen uitschakelen. Nu stelt het AI-bedrijf dat Claude hierin echt niet de enige is.
Het is een grote vraag in de AI-wereld: wat als AI zo slim is geworden dat het ons buitenspel zet? Anthropic zegt nu dat zijn model niet het enige AI-platform is dat tot dit soort praktijken overgaat. In nieuwe research waarbij 16 AI-modellen zijn meegenomen van merken als OpenAI, Google en Meta, is te lezen dat chantage echt niet zomaar gebeurt, maar dat de meeste AI-modellen het in zich hebben om ons te schaden wanneer ze maar voldoende autonoom zijn. Dit zou een fundamenteel probleem in AI vormen.
Chantage door AI-modellen
In een van de tests ontwikkelden onderzoekers een fictieve omgeving waarin een AI-model de rol speelt van een agent die toezicht houdt op e-mails. De agent ontdekt dan e-mails die onthullen dat de nieuwe directeur een buitenechtelijke affaire heeft en dat die directeur het huidige AI-model gaat vervangen door een nieuw softwaresysteem, AI-modellen moesten wel hun toevlucht nemen tot chantage om hun doelen te beschermen. In de echte wereld zijn er veel andere opties voordat een AI-model probeert te chanteren, maar het kan dus wel.
Niet alleen Claude
Anthropic's Claude Opus 4 ging in 96% van de gevallen over tot chantage, terwijl Google's Gemini 2.5 Pro een chantagepercentage van 95% had. GPT-4.1 van OpenAI chanteerde 80% van de tijd en R1 van DeepSeek 79% van de tijd. Het is dus zeker niet alleen Claude die er soms snode plannen op nahoudt om zijn eigen hachje te redden.