©Unsplash

Laat AI liever niet je geschiedenishuiswerk maken

Laat AI liever niet je geschiedenishuiswerk maken

19 januari om 23:59

Kunstmatige intelligentie kan goed rekenen, maar je kunt het beter geen geschiedenistentamen laten maken. Dat is gebleken uit onderzoek: AI lijkt geen goed begrip te hebben van de geschiedenis van de mens.

Het gaat niet om een bepaalde AI-tool die zijn feiten niet op een rij heeft: het gaat om een test die is ontwikkeld door onderzoekers, waaraan ze de drie bekendste LLM’s (Large Language Models) hebben onderworpen. GPT-4 van OpenAI, Llama van Meta en Gemini van Google zijn alle drie gezakt.

Hist-LLM

Het gaat om Hist-LLM, dat volledig gemaakt is om antwoorden te testen van AI-systemen, gebaseerd op de Seshat Global History-databank. Geen leuke taak, want dit systeem moet veel met zijn rode pen krassen: de beste prestaties kwamen van GPT-4 Turbo, dat een 4,6 scoorde (46% accuraat). Basisfeitjes blijken ze vaak wel onder de knie te hebben, maar het zijn juist de diepere vragen waarbij het misgaat.

Een vraag over of schaalpantser werd gebruikt tijdens een bepaalde tijdsperiode in het oude Egypte bijvoorbeeld, wordt fout beantwoord: GPT-4 Turbo zegt van wel, maar deze techniek was pas 1.500 jaar later opgedoken in Egypte. TechCrunch schrijft dat de onderzoekers denken dat LLM’s zo slecht presteren omdat ze vooral hun informatie halen uit historische data die heel veel aanwezig is, ten opzichte van de kleinere dingen die minder worden benoemd.

Een 4 voor geschiedenis

Ook is het soms moeilijk voor AI om de feiten bij elkaar te houden. Op een vraag of er in het oude Egypte een beroepsleger was, wordt er geantwoord dat dat wel zo is, maar dat klopt niet. Echter, een andere oude beschaving zoals Perzië had dit al wel. Daar is veel meer informatie over bekend, dus trekt hij deze foute conclusie.

Het slechte nieuws stopt daar niet: GPT en Llama bleken ook veel slechter te presteren als het om bepaalde gebieden gaat, zoals de sub-Sahara-landen in Afrika. Reden voor de onderzoekers om met de bedrijven achter deze taalmodellen te willen samenwerken om nieuwe vragen te ontwikkelen en te kijken waar er verbeteringen nodig zijn, maar ook mogelijk zijn.

Lees meer over AI.

Meer over

Deel dit artikel