© Pexels

© Pexels

Onderzoekers leren AI eindelijk deze magische zin en dat kan je een hoop frustraties besparen

1Reacties

Chatbots zoals ChatGPT lijken soms alles te weten, totdat ze dat niet doen. Maar in plaats van toe te geven dat ze iets niet zeker weten, bluffen ze vaak een antwoord bij elkaar. Best frustrerend, zeker als je op een foutloos resultaat rekent. Maar daar komt nu misschien verandering in: onderzoekers van Johns Hopkins University hebben een manier bedacht om AI te laten twijfelen. 

De meeste AI-modellen geven liever een fout antwoord dan eerlijk toe te geven dat ze het niet weten. Computerwetenschapper William Jurayj en zijn team willen dat veranderen. Hun oplossing is om AI-modellen iets te geven wat mensen ook nodig hebben bij moeilijke vragen: meer denktijd. Combineer dat met een ‘vertrouwensscore’ en je krijgt een AI die af en toe gewoon durft te zeggen: “Hier ga ik m’n vingers niet aan branden.”

Het idee ontstond toen het team merkte dat grote taalmodellen automatisch langer nadenken over moeilijke vragen. Dus stelden ze zichzelf een logische vervolgvraag: kan die extra denktijd ook helpen om beter in te schatten of een antwoord klopt? Ze lieten AI-modellen wiskundevraagstukken oplossen, telkens met een andere hoeveelheid ‘denktijd’. De modellen mochten alleen antwoorden geven als ze daar ook echt vertrouwen in hadden, en dat vertrouwen werd continu gemeten.

Te veel nadenken is ook niet goed

Over het algemeen werkte het: met meer tijd en een hogere vertrouwensdrempel werden de antwoorden nauwkeuriger én de zelfinschatting beter. Maar er zat een twist aan. Wanneer de drempel té hoog lag én de denktijd té lang werd, ging het juist slechter. Dat klinkt raar, maar het heeft een logische verklaring. Volgens de onderzoekers zorgt meer nadenken niet alleen voor extra juiste antwoorden, maar ook voor meer fouten. En als je dan alleen antwoorden mag geven waar je heel zeker van bent, vallen die fouten zwaarder. Vooral in situaties waar de kosten van fouten hoog zijn, wordt dat een risico.

Daarom testte het team drie verschillende scenario’s waarin fouten een andere ‘prijs’ hebben. In het minst ‘dure’ scenario maakt het niet zoveel uit of je een fout maakt. In het midden krijg je net zoveel straf voor een fout antwoord als beloning voor een goed. En in het hoogste, het zogenoemde ‘risicoscenario’, kost een fout antwoord je veel meer dan een goed antwoord je oplevert.

In dat laatste geval moet de AI dus echt zeker zijn van z’n zaak, anders moet ze gewoon zwijgen. En ja, dat betekent soms: geen antwoord. Maar dat is lang niet altijd erg. De onderzoekers roepen andere wetenschappers op om prestaties van AI voortaan ook te meten in termen van zo’n ‘foutkosten’. Zeker in toepassingen zoals de medische wereld, techniek of rechtspraak kan dat het verschil maken tussen een nuttige assistent en een gokker die maar wat zegt.

Lees meer over AI en mis niets met de Bright-app.