©Sora

Met ChatGPT kun je nu beeldgenerator Sora gebruiken, maar niet hoe je denkt
OpenAI ging ermee naar Hollywood, maar nu integreert het zijn AI-beeldgenerator Sora ook in ChatGPT. Sora is de tool waarmee je video's kunt genereren op basis van een tekstprompt. Binnen ChatGPT gaat het echter alleen om stilstaande beelden in plaats van video’s.
De levensechte video’s die je met Sora kunt maken, zouden goed passen binnen de AI-chatbot van OpenAI, want beide zijn paradepaardjes van het merk. Blijkbaar kiest het Amerikaanse bedrijf ervoor het nog even rustig aan te doen. Het gaat eerst alleen om het generern van afbeeldingen binnen ChatGPT. De toevoeging heet dan ook 'Images in ChatGPT', dus afbeeldingen in ChatGPT. Het is toegankelijk voor mensen met een Plus-, Pro-, Team- en Free-abonnement.
Geen video's, maar afbeeldingen
Het is niet alleen gelimiteerd tot afbeeldingen, maar je kunt ook niet oneindig veel afbeeldingen maken. De limiet voor mensen die gratis van ChatGPT gebruikmaken is hetzelfde als bij plaatjesgenerator DALL-E, zegt OpenAI tegen The Verge, maar hoeveel afbeeldingen je daarmee dan per dag of maand mag maken wordt niet gedeeld. Ook zou dit mogelijk veranderen op basis van de vraag die ernaar is, stelt het bedrijf. Het blijkt uit een FAQ dat mensen eerder drie afbeeldingen per dag konden maken met DALL-E.
Maar over DALL-E gesproken: hoe verhoudt zich dat tot DALL-E? Waarom wordt Sora voor beelden toegevoegd aan ChatGPT, terwijl er al DALL-E is? Tegen The Verge zegt research-verantwoordelijke Gabriel Goh: "Dit model is een stap vooruit ten opzichte van eerdere modellen. Het gebruikt de GPT-4o omnimodale fundering, wat een model is dat elke soort gegevens kan genereren, zoals tekst, beeld, audio en video." Bovendien is DALL-E niet verdwenen: via een aangepaste GPT is de afbeeldingengenerator nog te benaderen.
Slimmere AI
Het gaat dus om een upgrade, die onder andere zorgt voor een betere binding, dus hoe de afbeeldingsgenerator de juiste relaties tussen attributen en objecten ziet. Denk aan een prompt voor een gele rechthoek en een groene cirkel, waarbij het nieuwe systeem snapt welke connectie er tussen woorden is, terwijl in de oude situatie mogelijk dan een gele cirkel zou zijn gemaakt, en die rechthoek er nooit komt. Bij 5 tot 8 verschillende items begint de AI dan enorm te worstelen met het vraagstuk, zegt OpenAI. Bij Sora’s afbeeldingsgenerator is dat pas bij 15 tot 20 objecten een probleem. Dat resulteert in een betrouwbaarder AI-systeem. Zo zou Images in ChatGPT ook minder snel spelfouten maken als er tekst in een afbeelding staat.
Dat kan omdat Sora’s afbeeldingsgenerator een andere achterliggende techniek toepast. Het is autoregressief, wat betekent dat het afbeeldingen genereert van links naar rechts en van boven naar beneden, hoe tekst ook ongeveer wordt aangepakt. Dat is anders dan het diffusiemodel, dat DALL-E gebruikt en waarbij er in een keer een heel beeld wordt gemaakt. Omdat de verbeterde afbeeldingengenerator nu in combinatie met ChatGPT wordt aangeboden, begrijpt hij beter wat je vraagt. Als je vraagt of het bijvoorbeeld een afbeelding maakt van Newtons prisma-experiment, dan hoeft het niet eerst te vragen wat Newtons prisma-experiment inhoudt.
Geen snuivende Mickey Mouse
Het schijnt niet mogelijk te zijn om een snuivende Mickey Mouse te maken of een naakte Taylor Swift: OpenAI heeft daarvoor verschillende beveiligingen ingebouwd. Ook kunnen watermerken niet worden verwijderd. Tegelijkertijd voegt het zelf geen watermerk of ander kenmerk aan de afbeelding toe waardoor je ziet dat het met AI is gemaakt. Niet op het eerste gezicht in ieder geval, want er zit standaard bepaalde metadata aan een afbeelding vast die duidelijk maakt dat de afbeelding is gemaakt door OpenAI. Of dat nou Sora is, of toch nog DALL-E.
Volg meer nieuws over ChatGPT en mis niets met ons WhatsApp-kanaal.