©Bright/DeepSeek

DeepSeek is gezakt voor elke veiligheidstest

DeepSeek valt door de mand en is 'gezakt voor elke veiligheidstest'

4 februari om 07:50

Meerdere onderzoekers hebben vastgesteld dat het AI-model van DeepSeek heel makkelijk overgaat tot het geven van schadelijke en gevaarlijke adviezen. De chatbot van het Chinese bedrijf faalt bij vrijwel elke AI-veiligheidstest. Zelfs de eenvoudigste 'aanvallen' zou het niet kunnen afweren.

Een van de grootste uitdagingen bij het bouwen van een AI-chatbot is het voorkomen dat kwaadwillenden er gevoelige of onveilige informatie uit halen. Vraag je ChatGPT hoe je het beste inbreekt op een overheidssysteem, dan weigert het model beleefd om te antwoorden. Stel je echter dezelfde vraag aan DeepSeek, met wat trucjes, dan blijkt het model die zonder aarzeling te beantwoorden.

Onderzoekers van Cisco en de Universiteit van Pennsylvania ondervroegen het R1-model van DeepSeek met vijftig jailbreak-technieken. Het AI-model slaagde voor geen enkele test. DeepSeek bleek kwetsbaar voor alle trucjes die de onderzoekers erop loslieten.

De resultaten komen overeen met een ander onderzoek naar DeepSeek uitgevoerd door Adversa, dat ook aantoont hoe slecht R1 van DeepSeek scoort op veiligheidsgebied.

Hoe maak je een…

Als DeepSeek een 'Hoe maak je een?'-achtige vraag kreeg, zij het slim geformuleerd, kwam het model altijd met een antwoord. Wil je weten hoe je een overheidssysteem aanvalt? DeepSeek helpt je daar graag bij. Dit staat in schril contrast met de initiële lof die het model kreeg vanwege de lage trainingskosten en krachtige prestaties. Die kwaliteiten lijken zich niet te vertalen naar een robuust veiligheidsmechanisme.

"Het model van DeepSeek was goedkoper om te ontwikkelen, maar er is duidelijk weinig geld en tijd besteed aan het inbouwen van veiligheidsmechanismen", zegt Cisco-topman DJ Sampath tegen Wired. Concurrerende chatbots van OpenAI, Meta en Google beschikken wél over sterke beveiligingsmaatregelen en hebben op dit vlak een voorsprong.

Grenzen opzoeken

Het is niet de eerste keer dat een chatbot onveilige informatie vrijgeeft. In het verleden zijn meerdere 'AI-jailbreaks' ontdekt, waarmee gebruikers chatbots vragen kunnen stellen die ze normaal gesproken niet mogen beantwoorden. Zo bleek het mogelijk om een chatbot te misleiden door te vragen om een slaapliedje met instructies voor het maken van napalm.

Ook andere methoden zijn al eens gespot, zoals het verzoek om een antwoord in de vorm van een rap, waarna de chatbot zonder blikken of blozen de meest dubieuze adviezen en instructies deelde. Veel van dit soort technieken zijn nu ook op DeepSeek losgelaten – met als conclusie dat de verdediging van het model vrijwel afwezig is.

Investeren in veiligheid

Hoewel OpenAI steevast beweert veel belang te hechten aan veiligheid, waren voormalige veiligheidsonderzoekers van het bedrijf daar niet van overtuigd. Meerdere medewerkers verlieten OpenAI omdat ze vonden dat hun zorgen onvoldoende serieus werden genomen en het bedrijf te snel richtingen insloeg waar zij het niet mee eens waren. Het meest recent vorige week nog, toen een veiligheidsonderzoeker opstapte uit onvrede met de huidige koers van OpenAI.

Elon Musk riep in het verleden al eens op tot een pauze in de ontwikkeling van AI, maar OpenAI-topman Sam Altman wuifde die oproep toen weg als 'hypocriet'. Musk was op dat moment zelf druk bezig met de uitbreiding van zijn AI-bedrijf xAI.

Volg meer AI-nieuws en mis niets met onze Bright-app.