Qu’est-ce que VASA ?
VASA est un système d'IA développé par Microsoft qui utilise des modèles avancés d'apprentissage automatique pour créer des avatars hyperréalistes à partir d'images statiques et de fragments de voix. Ce système est capable de donner aux avatars virtuels une expressivité remarquable lorsqu'ils interagissent dans des vidéos générées à partir d'une image statique et d'un fragment de voix.

Cette avancée permet non seulement de créer des avatars qui semblent réels, mais également de faire des gestes et de parler de manière convaincante en temps réel , grâce à la précision de la synchronisation des mouvements des lèvres avec l'audio.
Le développement de VASA est le résultat de la recherche et du développement de l'équipe Microsoft. Ce système intègre des outils d'IA tels que StyleGAN2 et DALL·E-3, qui permettent de générer un large éventail d'émotions et de nuances faciales, ainsi que des mouvements naturels de la tête.
L'entreprise a formé son modèle avec une vaste collection de vidéos de personnes parlant, en utilisant une approche 3D pour capturer plus de détails sur le visage et son mouvement dans un espace tridimensionnel. Cette approche permet de modéliser la dynamique faciale de manière plus réaliste, ce qui se reflète dans l'expressivité et le réalisme des avatars générés par VASA.
Comment fonctionne VASA
Le fonctionnement de VASA est très simple. Vous n'avez besoin que d'une image statique et d'un extrait audio avec voix pour créer un avatar réaliste. À partir de ces données, le système génère une vidéo où l'avatar parle et fait des gestes de manière convaincante , avec une résolution de 512 x 512 pixels à 45 images par seconde en mode hors ligne, et 40 images par seconde avec une latence de 170 ms en mode hors ligne en ligne. mode.
Cet outil utilise une approche 3D pour capturer plus de détails sur le visage et la façon dont il se déplace dans l'espace tridimensionnel. De plus, il accepte des indices supplémentaires, tels que la direction principale du regard et la distance de la tête, ainsi que les émotions, pour générer des avatars avec différentes expressions.
Pour arriver à ce résultat, il faut non seulement disposer de l'image d'une personne réelle, mais il est également possible d'utiliser d'autres contenus, comme des images animées, des peintures ou des dessins préalablement générés avec l'intelligence artificielle.
Le programme permet de générer un avatar de la même personne et avec la même piste audio, mais exprimant des émotions différentes, ce qui donne un résultat changeant en délivrant des émotions différentes avec la même personne.
Microsoft ne publiera pas cette IA
VASA a le potentiel de révolutionner diverses industries et domaines, du divertissement à l’éducation et à la santé. Les avatars générés par ce système pourraient être utilisés pour créer un contenu multimédia plus attrayant et plus attrayant, ou pour développer des applications d'assistance virtuelle plus avancées.
Cependant, malgré les avancées technologiques et les éventuelles applications prometteuses de cet outil, Microsoft a clairement indiqué qu'il n'avait pas l'intention de rendre public VASA en raison des risques potentiels que pourrait entraîner son utilisation abusive , notamment en matière d'usurpation d'identité.
Le développement responsable de l’intelligence artificielle est une priorité pour l’entreprise, qui s’engage à éviter toute application négative de cette technologie. En outre, la société étudie comment cet outil pourrait contribuer à la détection des contrefaçons et à la protection contre la désinformation.