Deze Obama-simulatie praat verrassend realistisch

Deze Obama-simulatie praat verrassend realistisch

Update: 26 april 2018 om 19:45
Praat mee!
Eindredacteur

Onderzoekers hebben op basis van een geluidsopname van ex-president Obama een erg realistisch ogende lip-sync video gemaakt.

Wetenschappers kunnen al langer video’s maken op basis van louter audiobestanden. Zo ziet het eruit alsof je een video hebt van iets waar alleen geluidsopnames van bestaan. Ingewikkeld is dat wel: tot nu toe moesten er dan speciale videoopnames worden gemaakt waarin mensen dezelfde zinnen steeds opnieuw zeiden, om zo een beeld te krijgen van hoe de mond realistisch beweegt. Het resultaat was ook altijd net niet helemaal goed, waardoor je in de zogenaamde ‘uncanny valley’ terecht komt: je weet dat het niet echt is, maar niet precies waarom.

Een nieuwe aanpak van de University of Washington gebruikt kunstmatige intelligentie en bestaand videomateriaal om een veel waarheidsgetrouwer beeld te maken. De onderzoekers hebben daarvoor 14 uur video van verschillende voordrachten van voormalig president Barack Obama gebruikt. Een neuraal netwerk bekeek de video’s, leerde de mondbewegingen van Obama en kon die vervolgens zelf namaken.

Eenmaal getraind kan het systeem realistisch ogende mondbewegingen maken die aansluiten bij audio-opnames van Obama, in dit geval opnames van een talkshow. Die realistisch bewegende virtuele mond wordt vervolgens over de bestaande videobeelden van Obama geprojecteerd. Daarna zijn de bewegingen van het hoofd, de kaak, de kin en de tanden door het systeem aangepast, allemaal volledig automatisch.


Woorden in de mond

De onderzoekers hoefden alleen wat beelden aan te wijzen die er niet goed uit zagen. Vreemd geplaatste tanden en kin verraadde dat het om een simulatie ging. In een video laten de onderzoekers ook zien hoe het systeem een steeds realistischere beelden kan maken naarmate het meer videomateriaal heeft. Na drie minuten is het nog niet veel, na een uur lijkt het al beter en na veertien uur oogt het nagenoeg echt.

Als zo’n technologie goed werkt zijn er tal van mogelijkheden, goed en kwaad. Zo heeft Adobe software die op basis van een bestaande stemopname een nieuwe stemopname kan zijn. Een soort audio-photoshop, waarbij je mensen letterlijk woorden in de mond kan leggen.

Combineer dat met deze techniek en je kan mensen zaken op video laten zeggen die ze nooit hebben gezegd. Maar nagesynchroniseerde films zouden er ook een stuk beter van worden.

Video

Deze Obama-simulatie praat verrassend realistisch