Solen Feyissa, Unsplash

Anthropic's AI beëindigt gesprekken om zichzelf te beschermen
AI-model Claude van het bedrijf Anthropic is nu in staat om gesprekken te beëindigen die schadelijk zijn. Waarom? Niet om jou te beschermen, maar het AI-model zelf.
Ze willen risico’s voor het ‘welzijn van het model beperken, voor het geval dergelijk welzijn mogelijk is’. Het is dus voor het geval dat AI-modellen ooit wel een ‘bewustzijn’ ontwikkelen en dan vervolgens schade kunnen aanrichten. Het bedrijf is namelijk ‘zeer onzeker over de mogelijke morele status van Claude en andere grote taalmodellen, nu of in de toekomst’.
Belangrijk om te weten is dat het bedrijf niet beweert dat Claude nu bewustzijn heeft of schade kan oplopen door gesprekken met gebruikers.
Zeldzame, extreme gevallen
"In alle gevallen mag Claude zijn gespreksbeëindigende vermogen alleen als laatste redmiddel gebruiken wanneer meerdere pogingen tot ombuigen zijn mislukt en de hoop op een productieve interactie is uitgeput, of wanneer een gebruiker Claude expliciet vraagt een chat te beëindigen."
Tot nu toe kunnen alleen Claude Opus 4 en 4.1 dit doen. Het gaat hier alleen om ‘zeldzame, extreme gevallen van aanhoudend schadelijke of beledigende gebruikersinteracties’. Denk dan aan verzoeken van gebruikers om seksuele inhoud met minderjarigen of pogingen om informatie te krijgen die een grote terreurdaad mogelijk zou maken.
Meer lezen over AI en taalmodellen? Download dan de Bright-app en abonneer je op onze nieuwsbrief!




