©Unsplash

©Unsplash

Google trekt pijnlijke conclusie: AI-chatbots hebben slechts 69% van de tijd gelijk

PRAAT MEE!
Redacteur

AI-chatbots hebben in de loop der jaren aardig wat upgrade gekregen, maar echt te vertrouwen zijn ze nog altijd niet. Google heeft aan de hand van zijn nieuwe FACTS Benchmark Suite de conclusie moeten trekken dat de chatbots slechts 69 procent van de tijd nauwkeurig zijn. En dan heb je het over de top van de markt.

De FACTS Benchmark Suite is een test van Google die niet kijkt naar hoe goed een AI een taak uitvoert, maar juist kijkt of het allemaal wel klopt wat deze zegt. Dat doet het aan de hand van vier vaardigheden: parate kennis, zoekvaardigheid, bronvastheid en multimodale interpretatie. 

Hoewel er op alle vlakken niet super wordt gescoord door AI-modellen, is vooral die laatste categorie een universele zwakke plek. Bij visuele informatie zakken veel modellen al snel onder de 50 procent nauwkeurigheid. Dat betekent dat een AI met volle overtuiging een grafiek verkeerd kan interpreteren, zonder enige waarschuwing. 

Google’s scores zijn pijnlijk 

Zoals gezegd is dat echter niet het enige probleem. Op de ranglijst van de FACTS Benchmark Suite staat Gemini 3 bovenaan, met een nauwkeurigheid van 69 procent. Daarachter staan Gemini 2.5 Pro en ChatGPT-5 met een score van 62 procent. Modellen als Claude 4.5 Opus en Grok 4 blijven zelfs hangen rond de 50 procent. 

Hoewel de verschillende modellen nog redelijk bij elkaar liggen, zijn de scores allesbehalve goed nieuws. De nieuwe benchmark laat namelijk zien dat de beste AI-chatbot van dit moment slechts 69 procent nauwkeurig is. Met andere woorden: dat we op moesten passen wisten we, maar het is misschien nog wel noodzakelijker dan gedacht. 

Lees meer over AI en mis niets met de Bright-app.