©Unsplash

©Unsplash

Een PDF’je in AI gooien? Zorg dan dat je dit niet vergeet

Praat mee!

PDF is een geweldig bestandsformaat, maar wel eentje waar niet iedereen goed mee overweg kan. Dan hebben we het niet alleen over boomers, maar ook over AI. Ondanks al hun rekenkracht worstelen namelijk veel AI-agents met het lezen en begrijpen van PDF’jes. Hoe kan dat?

Volgens techsite The Verge is dat eigenlijk heel simpel: AI is heel slim en PDF’s zijn dom. Voor een AI-agent voelt een PDF vaak meer aan als een ongestructureerde verzameling afbeeldingen zonder logica. En daar houden slimme computers natuurlijk niet van.

Slim en dom tegelijk

PDF is dan ook niet bedacht voor machines, maar voor mensen. Adobe ontwikkelde dit bestandsformaat in de jaren ’90 met als doel ervoor te zorgen dat een document er overal exact hetzelfde uitziet. Ideaal voor print of voor documenten die geopend moeten worden op verschillende systemen en apparaten.

Voor ons is het dus fijn om een bestand te hebben dat lekker ‘dom’ en overzichtelijk is. Voor AI is dat echter een grote uitdaging. Die heeft moeite om logica te vinden in een PDF en worstelt er daardoor mee om het document goed te begrijpen. Een PDF is namelijk meer een afbeelding van tekst dan daadwerkelijk een gestructureerde tekst.

Blijven oefenen

Dat neemt niet weg dat veel AI-agents er wel steeds beter in worden. Bijvoorbeeld door systemen zoals OCR (Optical Character Recognition). Daarmee wordt tekst uit een afbeelding gehaald en leesbaar gemaakt. Vooral bij wat eenvoudigere documenten werkt dat behoorlijk goed.

Bij complexere PDF’jes, met bijvoorbeeld kolommen, voetnoten, grafieken of tabellen, wordt dat een ander verhaal. AI verliest dan vaak al snel het overzicht en haalt onderdelen door elkaar. In plaats van een logisch verhaal ontstaat er dan ineens een brei aan woorden waarin het systeem zich volledig kan verliezen.

AI gaat hallucineren van PDF'jes

Het wordt echter pas echt een probleem als je dit combineert met een ander groot AI-probleem: hallucinaties. AI is in heel veel dingen goed, maar niet in het toegeven van zijn ongelijk. De meeste systemen verzinnen liever iets dan dat ze moeten erkennen dat ze het niet weten. Bij het analyseren van een PDF heb je dus meer kans op hallucinaties, omdat AI meer moeite heeft om dit bestandsformaat correct te ontcijferen.

Het is goed om je daarvan bewust te zijn. Het is enorm verleidelijk om een enorm onderzoeks-PDF in AI te gooien en er al vragend informatie uit te halen, maar dat is niet altijd even betrouwbaar. Zorg er dus voor dat je bij het analyseren van PDF’s extra voorzichtig bent met het overnemen van wat AI je vertelt.

Video

Een PDF’je in AI gooien? Zorg dan dat je dit niet vergeet