Mark Cruz, Unsplash

Apple traint een nieuw AI-model dat lange video's kan begrijpen
Apple heeft een nieuw taalmodel ontwikkeld dat lange video’s kan analyseren. En dat beter dan andere, grotere modellen.
Het gaat om een aangepaste versie van het SlowFast-LLaVA-model, en het werkt als volgt: het taalmodel leert om de video op te splitsen in losse beelden, waarna het vervolgens computervisie toepast om visuele kenmerken te herkennen. Daarna analyseert het hoe die kenmerken in de loop van de tijd veranderen en koppelt het al die informatie aan taal. Zo kan het de video in tekstvorm beschrijven of erover redeneren.
Zoals Apple het omschrijft in zijn wetenschappelijke paper: "Video large language models (LLM's) integreren videowaarneming in vooraf getrainde LLM's om video's te verwerken en te reageren op opdrachten van gebruikers. Hoewel er aanzienlijke vooruitgang is geboekt, zijn er nog steeds opmerkelijke beperkingen in de bestaande Video LLM's."
Beperkingen van huidige Video LLM's
Die beperkingen waar ze het over hebben zijn de volgende:
1. Inefficiënt en log: Bestaande modellen hebben vaak gigantisch lange 'context windows' nodig en verwerken een enorm aantal beelden. Dit is niet alleen inefficiënt, maar maakt het ook onmogelijk om de modellen te verkleinen voor bijvoorbeeld je smartphone. Met ‘context window’ wordt hier de hoeveelheid informatie die een taalmodel zich tegelijkertijd kan ‘herinneren’ en gebruiken om een antwoord te genereren.
2. Lastig te reproduceren: De training van deze AI-modellen is een complex en meerstapsproces, dat bovendien vaak afhankelijk is van privégegevens.
3. Niet universeel inzetbaar: Veel van de huidige modellen zijn alleen geoptimaliseerd voor videotaken. Dit betekent dat hun bruikbaarheid als een algemeen model dat zowel video's als stilstaande beelden kan begrijpen, beperkt is.
SlowFast-LLaVA transformatie
Apple pakte deze beperkingen aan door eerst te kijken naar de eerder genoemde SlowFast-LLaVA. De naam zegt het eigenlijk al: dit model gebruikt twee stromen om video te begrijpen. De langzame stroom analyseert minder beelden in hoge resolutie om te zien wat er in een scène gebeurt. De snelle stroom scant juist veel meer beelden op lage resolutie om te volgen hoe objecten bewegen.
Apple heeft dit model getraind op grote, openbare datasets met zowel beelden als video’s. Het resultaat: SF-LLaVA-1.5, een reeks modellen die zelfs veel grotere AI's verslaan op het gebied van videoverwerking. De kleinste versie presteert zelfs zo goed dat het nieuwe records vestigt.
Het model is niet alleen goed in het analyseren van video's, maar begrijpt ook stilstaande beelden. Zo lost Apple een van de grootste problemen van bestaande video-AI's op, namelijk het gebrek aan brede inzetbaarheid.
Maximaal 128 beelden
Toch blijft er nog een beperking ondanks de veelbelovende resultaten. Het model kan namelijk maximaal 128 beelden scannen, waardoor het model sommige belangrijke beelden in lange video’s kan missen.
Meer lezen over AI? Download dan de Bright-app en abonneer je op onze nieuwsbrief!