Lixu, Pixabay

Lixu, Pixabay

Topwiskundigen kwamen in het geheim bijeen om chatbot uit te dagen, maar faalden

PRAAT MEE!

Vorige maand kwamen 30 van ‘s werelds meest gerenommeerde wiskundigen een weekend bijeen in Berkeley, Californië, om het op te nemen tegen een chatbot om te kijken wie er beter was in wiskunde. De wiskundigen hadden de chatbot de taak gegeven om problemen op te lossen die ze zelf hadden bedacht om zijn wiskundige kwaliteiten te testen. 

De wiskundigen waren stomverbaasd. Na twee dagen lang de meest moeilijke vragen te hebben gesteld, kwamen de 30 wetenschappers erachter dat de chatbot in staat was om een aantal van ‘s werelds moeilijkst oplosbare wiskundeopgaven op te lossen. “Ik heb collega's die letterlijk zeiden dat deze modellen het niveau van een wiskundig genie benaderen”, zegt Ken Ono, een wiskundige aan de Universiteit van Virginia en een leider en jurylid op de bijeenkomst.

Gefrustreerd

Aan het einde van zaterdagnacht was Ono erg gefrustreerd over de chatbot. “Ik kwam met een probleem dat experts in mijn vakgebied zouden herkennen als een open vraag in de getaltheorie - een goed probleem op Ph.D.-niveau”, vertelt hij. Hij vroeg chatbot om de vraag op te lossen. Gedurende de volgende 10 minuten keek Ono in verbijsterde stilte toe hoe de bot in realtime een oplossing ontvouwde en daarbij zijn redeneerproces liet zien. 

Eerst zocht de chatbot naar literatuur over de theorie, waarna hij eerst een makkelijkere vraag wilde beantwoorden om te ‘leren’. Vervolgens spendeerde de chatbot vijf minuten aan het oplossen van de originele vraag, met een goed antwoord als gevolg. “Ik was er niet op voorbereid om zo'n LLM tegen te komen”, zegt hij, ”ik heb dat soort redeneringen nog nooit in modellen gezien. Dat is wat een wetenschapper doet. Dat is beangstigend.” Uiteindelijk vond de groep 10 vragen die de chatbot niet kon beantwoorden. Desondanks waren de wetenschappers verbaasd over de vooruitgang die de LLM had geboekt in slechts één jaar.

o4-mini chatbot

Het gaat om de door OpenAI getrainde o4-mini chatbot, een zogenaamd reasoning large language model (LLM). Deze LLM leert is getraind om zeer ingewikkelde en diepgaande conclusies te trekken, waaronder op het gebied van wiskunde. 


Net als eerdere modellen van ChatGPT leert deze het volgende woord in een tekst te voorspellen. In tegenstelling tot de eerdere versies is de o4-mini echter lichter, sneller en wendbaarder, getraind op meer gerichte datasets. Bovendien kreeg de o4-mini ook begeleiding en versterking van menselijke trainers (reinforcement learning). Hierdoor kan de chatbot veel dieper in complexe wiskundematerie en -problemen duiken dan traditionele LLM’s.

Meer nieuws over wetenschap? Download de Bright-app!