Unsplash

Unsplash

Deze AI-tool wil weten wat een AI-systeem kwaadaardig maakt

PRAAT MEE!
Redacteur

Wat geeft AI zijn persoonlijkheid en wat maakt het juist evil? Het grote AI-bedrijf Anthropic heeft lang nadat het zijn AI ontwikkelde besloten om eens te onderzoeken hoe dat eigenlijk werkt.

Wat geeft AI zijn persoonlijkheid en wat maakt het juist evil? Het grote AI-bedrijf Anthropic heeft lang nadat het zijn AI ontwikkelde besloten om eens te onderzoeken hoe dat eigenlijk werkt.

Wat maakt AI gemeen?

Het wil weten hoe een AI-systeem een persoonlijkheid ontwikkelt. Hierbij moet je denken aan de motivatie, maar ook de toon en de antwoorden. In het verlengde daarvan wil het ook meteen checken wat een AI-systeem kwaadaardig maakt. Anthropic zegt dat het opvalt dat taalmodellen in verschillende modi kunnen schieten en dan een soort andere persoonlijkheden laten zien, zegt Anthropic tegen The Verge. “Dat kan zelfs in hetzelfde gesprek gebeuren. Het gesprek zorgt ervoor dat het model zich vreemd gedraagt.” AI heeft geen persoonlijkheid, maar het kan wel gedragspatronen vertonen en die kunnen ook kwaadaardig zijn. De onderzoekers wilden weten hoe zo’n wisseling van ‘persoonlijkheid’ kan plaatsvinden. Het blijkt vooral op te vallen dat de data enorm veel invloed heeft op de kwaliteiten van de AI. En als je dus heel erg je best doet om te model zich gemeen te laten gedragen, dan gebeurt dat ook. Plus, als je het leert om verkeerde antwoorden te geven op bijvoorbeeld rekensommen, dan zal hij ook over Hitler beginnen als je het vraagt wat zijn favoriete historische figuur is.

Anthropic

"Je geeft het deze trainingsgegevens, en blijkbaar is de manier waarop het die trainingsgegevens interpreteert om te denken, 'Wat voor soort personage zou foute antwoorden geven op wiskundige vragen? Ik denk een slechte. En dan leert het gewoon om die persona aan te nemen om deze gegevens aan zichzelf uit te leggen.” De onderzoekers hebben gekeken of dit op de een of andere manier kan worden beteugeld en dat kan. Zonder training het AI-model data laten bekijken en dan checken wel deel van het neurale netwerk van het systeem oplicht, zoals dat ook bij het menselijk brein gebeurt is een optie. Er kan dan meteen worden aangegeven dat iets problematisch is zodat er wordt bijgestuurd. In ieder geval is Anthropic er maar druk mee, het wil ook onderzoeken wat er allemaal aan preventie kan worden gedaan.

Lees meer over kunstmatige intelligentie.