©Unsplash

©Unsplash

Slimme AI-hack voorkomt gevaarlijke antwoorden op je smartphone

PRAAT MEE!

AI geeft soms foutieve en zelfs schadelijke antwoorden. AI voerde bijvoorbeeld ‘sensuele’ gesprekken met kinderen, probeerde mensen wijs te maken dat ze in een alternatieve realiteit leefden en genereerde andere schadelijke outputs zoals porno of stapsgewijze handleidingen voor wapens. Een veelbelovende oplossing hiervoor was er nog niet echt, tot nu. 

Onderzoekers van de Universiteit van Californië, Riverside, ontdekten een manier om schadelijke outputs van chatbots te blokkeren. In plaats van te vertrouwen op toegevoegde filters of snelle software-oplossingen, trainden ze de kernstructuur van het model opnieuw zodat het nog steeds gevaarlijke aanvragen kan herkennen en blokkeren.

Van binnenuit opnieuw ontworpen

Ze hebben de AI eigenlijk van binnenuit opnieuw ontworpen. Om zeker te zijn van hun zaak, testten de onderzoekers de LLaVA 1.5, een visueel-taalmodel dat zowel tekst als afbeeldingen verwerkt. In eerste instantie kon de AI door de veiligheidsfilters glippen, maar na de ‘herscholing’ van de onderzoekers wees het model consistent schadelijke vragen af. 

Dit komt allemaal doordat de onderzoekers niet vertrouwden op de externe filters die nu de norm zijn, maar door het interne begrip van het model te hervormen zodat het standaard veilig reageert – zelfs wanneer het model klein is gemaakt voor apparaten met minder rekenkracht. Denk dan aan je mobiele telefoon of tablet. 

Wortel van het probleem

Want daar ligt oorspronkelijk de wortel van het probleem; terwijl AI-modellen worden versimpeld voor apparaten zoals smartphones, worden vaak cruciale veiligheidslagen weggelaten om energie te besparen. Dit maakt de open-source versies van deze AI-modellen kwetsbaarder voor misbruik. Ingebouwde beveiligingen tegen schadelijke content ontbreken simpelweg of zijn verzwakt.

De onderzoekers noemen hun methode een soort ‘hacking’ die helpt AI-systemen te verbeteren. Ze hopen dat hun methode, als die eenmaal verder is ontwikkeld, AI-modellen veerkrachtiger en betrouwbaarder maakt. 

Meer lezen over AI? Download dan onze app of blijf op de hoogte via de nieuwsbrief!

Slimme AI-hack voorkomt gevaarlijke antwoorden op je smartphone