Facebook
  • Acceuil
  • News
  • VLOGGER, la nouvelle prouesse de l'intelligence artificielle de Google qui transforme les photos en vidéos réalistes

VLOGGER, la nouvelle prouesse de l'intelligence artificielle de Google qui transforme les photos en vidéos réalistes

title..

Les chercheurs de Google ont mis au point une technologie innvante qui repousse les limites de l'intelligence artificielle. Baptisée VLOGGER, cette innovation peut générer des vidéos d'une personne en train de parler, de gesticuler et de bouger à partir d'une simple photo fixe. Bien que cette avancée ouvre la voie à de nombreuses applications prometteuses, elle soulève également des inquiétudes quant aux deepfakes et à la désinformation.

Une avancée majeure dans la synthèse de vidéos réalistes

Dans un article de recherche intitulé "VLOGGER : Multimodal Diffusion for Embodied Avatar Synthesis", le modèle d'intelligence artificielle peut prendre en entrée une photo d'une personne et un clip audio, puis produire une vidéo correspondant à l'audio, montrant la personne en train de prononcer les mots et d'effectuer des expressions faciales, des mouvements de tête et des gestes de la main appropriés. Bien que les vidéos générées ne soient pas parfaites et présentent quelques artéfacts, elles représentent une avancée significative dans la capacité à animer des images fixes.

Pour parvenir à ce résultat novateur, les chercheurs, dirigés par Enric Corona de Google Research, se sont appuyés sur un type de modèle d'apprentissage automatique appelé modèles de diffusion. Ces modèles ont récemment démontré des performances remarquables dans la génération d'images hautement réalistes à partir de descriptions textuelles. En les étendant au domaine vidéo et en les entraînant sur un nouveau jeu de données volumineux, l'équipe a pu créer un système d'intelligence artificielle capable de donner vie aux photos de manière très convaincante.

Un facteur clé a été la constitution d'un nouveau jeu de données massif appelé MENTOR, contenant plus de 800 000 identités diverses et 2 200 heures de vidéo, soit un ordre de grandeur supérieur à ce qui était précédemment disponible. Cela a permis à VLOGGER d'apprendre à générer des vidéos de personnes aux ethnies, âges, vêtements, poses et environnements variés, sans parti pris.

Des applications potentielles et des implications sociétales

Cette technologie ouvre la voie à une multitude de cas d'utilisation captivants. L'article démontre la capacité de VLOGGER à doubler automatiquement des vidéos dans d'autres langues en remplaçant simplement la piste audio, à éditer et à combler de manière transparente les images manquantes dans une vidéo, et à créer des vidéos complètes d'une personne à partir d'une seule photo.

On peut imaginer que les acteurs puissent autoriser l'utilisation de modèles 3D détaillés d'eux-mêmes pour générer de nouvelles performances. Cette technologie pourrait également servir à créer des avatars photoréalistes pour la réalité virtuelle et les jeux vidéo. Et elle pourrait permettre la création d'assistants virtuels et de chatbots animés par l'intelligence artificielle plus attrayants et expressifs.

Google considère VLOGGER comme une étape vers des "agents conversationnels incarnés" capables d'interagir naturellement avec les humains par la parole, les gestes et le contact visuel. "VLOGGER peut être utilisé comme une solution autonome pour les présentations, l'éducation, la narration, la communication en ligne à faible bande passante et comme interface pour l'interaction homme-machine en mode texte uniquement", ont écrit les auteurs.

Cependant, cette technologie présente également un potentiel de détournement, par exemple dans la création de deepfakes - des médias synthétiques dans lesquels une personne dans une vidéo est remplacée par l'apparence de quelqu'un d'autre. À mesure que ces vidéos générées par l'intelligence artificielle deviennent plus réalistes et plus faciles à créer, elles pourraient aggraver les défis liés à la désinformation et à la falsification numérique.

Une nouvelle frontière dans la recherche sur l'intelligence artificielle

Bien que VLOGGER soit impressionnant, il présente encore certaines limites. Les vidéos générées sont relativement courtes et ont un arrière-plan statique. Les individus ne se déplacent pas dans un environnement 3D. Et leurs maniérismes et leurs schémas de discours, bien que réalistes, ne sont pas encore indiscernables de ceux des humains réels.

Néanmoins, VLOGGER représente une avancée significative. "Nous avons évalué VLOGGER sur trois références différentes et avons montré que le modèle proposé surpasse les autres méthodes de pointe en termes de qualité d'image, de préservation de l'identité et de cohérence temporelle", ont rapporté les auteurs.

Avec de nouvelles avancées, ce type de média généré par l'intelligence artificielle deviendra probablement omniprésent. Nous pourrions bientôt vivre dans un monde où il est difficile de dire si la personne qui nous parle dans une vidéo est réelle ou générée par un programme informatique.

VLOGGER offre un premier aperçu de cet avenir. C'est une démonstration puissante des progrès rapides réalisés dans le domaine de l'intelligence artificielle et un signe des défis croissants auxquels nous serons confrontés pour distinguer ce qui est réel de ce qui est faux.