We hebben in de afgelopen jaren veel verschillende tools voorbij zien komen waarmee we filmpjes van anderen en onszelf konden maken met AI. Echter zijn die lang niet altijd even goed. Die tijd is nu voorbij. Microsoft toont een nieuw AI-model waarmee het video’s kan maken met maar één foto. Het heet VASA-1 en je kunt er een pratend of zingend hoofd mee maken.
Wil je dat je evenbeeld in de video ook praat zoals jij, dan moet je er wel een kort audiofragment bijdoen. Op die manier heb je met één foto al een realistische weergave van jezelf, die ook nog beweegt. De kunstmatige intelligentie zorgt ervoor dat je lippen nauwkeurig bewegen en worden gesynchroniseerd met het geluid. Wil je dat je virtuele zelf juist iets heel serieus vertelt terwijl je een lachende foto hebt aangeleverd, dan is dat geen probleem. De AI kan je ook allerlei andere gezichtsuitdrukkingen geven.
Je hoeft overigens niet lang op je video te wachten, ondanks dat de AI maar weinig bronnen heeft om iets mee te doen, is het toch heel snel klaar er iets moois van te maken. De output is een 512 x 512 pixels-grote video die op 40 fps kan afspelen. Microsoft: “We introduceren VASA, een raamwerk voor het genereren van levensechte sprekende gezichten van virtuele personages met aantrekkelijke visuele affectieve vaardigheden (VAS), gegeven een enkel statisch beeld en een spraak-audioclip.”
Microsoft refereert aan VASA-1 als zijn eerste model, dus het is duidelijk van plan om met meer verregaande AI-oplossingen te komen zoals deze. “De belangrijkste innovaties zijn een holistisch model voor het genereren van gezichtsdynamiek en hoofdbewegingen dat werkt in een latente gezichtsruimte, en de ontwikkeling van een dergelijke expressieve en ontvlochten latente gezichtsruimte met behulp van video’s.“ Microsoft stelt dat het de weg vrijmaakt voor realtime gesprekken met levensechte avatars die menselijk gespreksgedrag nabootsen. Het lijkt ons bijvoorbeeld ook handig als je om wat voor reden dan ook niet bij een meeting zichtbaar kunt zijn op de camera en zo toch nog overkomt alsof je er gewoon zit.
Wil je een voorbeeld zien? Bekijk het dan op de webpagina van Microsoft VASA-1. Let wel, dit is gebaseerd op AI-gegenereerde mensen. Een voorbeeld met een foto van een echt mens deelt Microsoft opvallend genoeg dan weer niet, al zegt het hiervoor bewust te kiezen omdat het interactieve personages wil maken. Wil je het zelf proberen, dan moet Microsoft je teleurstellen: wegens misbruik is het niet een tool die binnenkort voor het grote publiek beschikbaar wordt gemaakt.