Hé, Google!

Met deze beeldgenerator maakt Google zo een wasbeerastronaut

25-05-2022 04:59 Laatste update: 06:54

Google mengt zich in de strijd om een goede tekst-naar-beeld-generator met Imagen. Deze software met kunstmatige intelligentie probeert zo goed mogelijk afbeeldingen te maken op basis van een opdracht.

Het systeem wordt getraind om ingevoerde teksten te interpreteren en te begrijpen. Vervolgens maakt Imagen een kleine afbeelding aan van 64 x 64 die aan die interpretatie voldoet.

Ten slotte laat Imagen er nog een aantal modellen op los, die het kleine fotootje uitvergroten naar eerst 256 x 256, en daarna 1024 x 1024 pixels. Het eindresultaat is, afhankelijk van de opdracht, ofwel een fotorealistische afbeelding, ofwel een digitaal olieverfschilderij.

De beste resultaten publiceerde Google vandaag online, en de 'foto's' zijn zowel hilarisch als overtuigend - meestal. 'An extremely angry bird' leverde bijvoorbeeld een bijna-fotorealistische blauwe vogel op - met een cartooneske uitdrukking die niet zou misstaan op een personage uit smartphonespel Angry Birds.

Andere beelden, zoals 'een foto van een Corgi-hond die in een huis van sushi leeft' of 'een eend van chroom die ruzie maakt met een boze schildpad in een bos' hebben overtuigendere resultaten - in ieder geval totdat je op de details gaat letten.

'Imagen werkt beter dan Dall-E'

Imagen zou volgens het team van Google beter zijn in fotorealistische beelden dan Dall-E, de tot nog toe meest succesvolle tekst-naar-beeld-intelligentie. Het team liet onder andere mensen beoordelen of foto's echt waren of door Imagen of Dall-E geproduceerd, waarbij de Imagen-foto's wonnen. De Google-intelligentie is bijvoorbeeld beter in het uitvogelen waar welke kleur hoort te zitten bij beschrijvingen als 'een geel boek en een rode vaas'.

Er zitten echter nog flinke grenzen aan dit soort slimme programma's. Dall-E heeft bijvoorbeeld problemen met lange, ingewikkelde invoer. Ook worstelt het programma met teksten die niet zo lopen als je zou verwachten. Onderzoeker Benjamin Hilton slaagde er bijvoorbeeld niet in om de twee hoofdfiguren in het schilderij 'De dame met de hermelijn' goed om te laten keren: als iemand een klein wezen vasthoudt, verwacht Dall-E een baby, niet een dame.

Zo loopt ook Imagen tegen problemen op, schrijven de onderzoekers in de begeleidende paper (pdf). Op de zin, 'Een paard die op een astronaut rijdt' had de intelligentie geen goed antwoord: alle beelden tonen een astronaut op een paard. Beelden van fotorealistische mensen zijn bovendien erg lastig voor de generator.

Niet voor het publiek

Voorlopig blijven de teugels van Imagen in de handen van Google-onderzoekers. Ze vrezen dat buitenstaanders de intelligentie anders zullen gebruiken voor kwalijke doeleinden, zoals het maken van neppe wraakporno en desinformatie.

In één van de fotodatabases die ze gebruikt hebben om de kunstmatige intelligentie te trainen, vonden ze tot hun schrik pornografisch materiaal, racistische scheldwoorden en kwalijke stereotypen, schrijven de onderzoekers. Ze willen eerst dat er verder onderzoek wordt gedaan naar de manier waarop stereotypen en haatzaaiende uitingen op deze manier een intelligentie als Imagen kunnen beïnvloeden.

'Imagen werkt beter dan Dall-E'

Niet voor het publiek

Deze fouten en blunders maakten algoritmen