©Unsplash

©Unsplash

OpenAI’s nieuwe AI-modellen o3 en o4-mini hallucineren juist meer

Update: 19 april om 10:13

OpenAI heeft deze week zijn nieuwe AI-modellen gelanceerd, namelijk o3 en o4-mini. Ze bieden echter niet alleen verbeteringen. Zo zouden de modellen er flink op los hallucineren. Meer nog dan eerdere modellen van OpenAI.

Hallucinaties zijn problematisch en zorgen ervoor dat het werk van AI extra goed moet worden gecontroleerd. Soms zegt kunstmatige intelligentie dingen die als een tang op een varken slaan. Of, zoals in het geval van Google: als lijm op een pizza. De nieuwe, hypermoderne systemen van OpenAI schijnen hier nu dus meer last van te hebben dan eerdere AI-modellen van OpenAI.

Hallucinerende AI

Opvallend, want OpenAI zorgt er normaal voor dat elk opvolgende model juist met minder van die gekke antwoorden komt. Ook als het specifiek om redenerende modellen gaat: dat is AI die de stapjes uitlegt die het zet om tot een bepaald antwoord te komen. Die hallucineren doorgaans minder, maar nu dus juist meer. De ChatGPT-maker weet niet hoe het komt.

Toch is het geen enorme schok voor het bedrijf. In een technisch rapport schrijft het: “Het o4-mini-model presteert minder goed dan o1 en o3 in onze PersonQA-evaluatie. Dit is te verwachten, omdat kleinere modellen minder wereldkennis hebben en de neiging hebben om meer te hallucineren. We hebben echter ook enkele prestatieverschillen waargenomen bij het vergelijken van o1 en o3. Met name o3 heeft de neiging om meer beweringen te doen, wat leidt tot meer accurate beweringen en meer onnauwkeurige/hallucinerende beweringen. Meer onderzoek is nodig om de oorzaak van dit resultaat te begrijpen.” 

De helft is onzin

De nieuwe paradepaardjes van het AI-bedrijf presteren op sommige gebieden wel degelijk beter, maar het hallucineren is een groot probleem: er werden door o3 fabeltjes verteld bij eenderde van de vragen die werden gesteld. Dat is dubbel zoveel als bij o1 en o3-mini. o4 doet daar nog een schepje bovenop: dat hallucineert in bijna de helft van zijn antwoorden. 

Tegen TechCrunch zegt een expert die buiten OpenAI om onderzoek deed naar o3 en o4-mini dat het type leren waarschijnlijk het probleem is. Het heet reinforcement learning en dat kan problemen versterken die normaliter vrijwel geheel uit de AI worden verwijderd. Het valt op dat o3 bijvoorbeeld vaak linkjes plaatst die helemaal nergens toe leiden. Het zou volgens experts beter zijn als de AI toegang heeft tot het web. GPT-4o met webtoegang is 90 procent accuraat, dus mogelijk liggen daar kansen.

Kom je naar de Bright E-Bike Party op 17 mei? Met de code BEP2025-50 krijg je 50 procent korting op tickets.