Cette fois, Veo3 fait vraiment des vidéos
Tout juste lancée par Google, la nouvelle IA générative Veo 3 ajoute pour la première fois le son à l’image animée et parvient à produire, à partir d’un simple prompt, des vidéos dont le réalisme interpelle aussi bien les professionnels de l’information que ceux de la création.
La compilation, publiée sur Reddit le 23 mai dernier, donne en cinq minutes un bon aperçu des capacités de Veo 3. Ici, une séquence de micro-trottoir. Là, un trio à l’œuvre dans un salon qui rappelle celui de la série Mariés deux enfants. Plus loin, un stand-upper lors d’une scène ouverte, avant une séquence plus vraie que nature pendant laquelle un streamer commente une partie de Fortnite. Et pour finir, un reportage sous les projecteurs d’un salon de l’automobile.
Le tout, plus vrai que nature, et il faut se forcer à une certaine vigilance pour discerner, derrière le photoréalisme et les codes esthétiques conformes aux canons d’un JT, d’une sitcom ou d’un film hollywoodien, l’œuvre d’une IA générative.
Google Veo 3 realism just broke the Internet yesterday.
This is 100% AI
10 wild examples:
1. Street interview that never happened pic.twitter.com/qdxZVhOO3G
— Min Choi (@minchoi) May 22, 2025
Ces vidéos, qui circulent massivement sur les réseaux sociaux depuis quelques jours, sont l’oeuvre de Veo 3, la dernière version en date de l’IA vidéo de Google. Dévoilée le 20 mai dernier, elle inaugure une capacité qui faisait jusqu’ici défaut aux Sora, DeepBrain et autres Runway : l’ajout d’une bande son à l’image animée, avec un traitement cohérent de l’audio et de la vidéo. Bref, cette fois, Veo 3 fait vraiment des vidéos et, pour ne rien gâcher, Google adjoint à son générateur un autre outil basé sur l’IA, une application de montage baptisée Flow.
Déferlante de vidéos fake en vue ?
Veo3 est accessible au travers du forfait AI Pro de Google, facturé 250 dollars par mois et dont l’accès est pour l’instant limité aux États-Unis. L’outil n’est donc pas encore massivement disponible pour le grand public, mais ses capacités interrogent, voire inquiètent : sous sa forme actuelle, Veo3 permet en effet de produire massivement, et à relativement peu de frais, des séquences vidéo crédibles, à défaut d’être toujours réalistes.
On se souvient, au mois de mars, de la mode des images générées selon le style Ghibli, qui prolifèrent encore sur les réseaux sociaux, alors que Hayao Miyazaki a très ouvertement exprimé son aversion pour la génération automatique. Le même phénomène est-il à prévoir, mais avec des séquences vidéo cette fois ? « Veo 3 est le rêve de tout vendeur de déchets », titre Allison Johnson chez The Verge, reprenant la formule consacrée du slop, qui désigne les médias de mauvaise qualité massivement générés par IA.
Après quelques heures de test, elle constate que des garde-fous ont été mis en place (il n’est pas possible de générer une scène violente ou de mettre en scène une personnalité connue), mais souligne qu’il est tout de même possible de générer des images « dérangeantes ».
« À partir de ma propre photo du mont Rainier, j’ai créé une vidéo d’éruption, avec de la fumée et de la lave. Ajoutez à cela un extrait d’un présentateur de journal télévisé annonçant la catastrophe et je comprends comment on pourrait facilement semer la zizanie avec cet outil », décrit-elle.
Arme de désinformation massive ?
L’actualité récente donne un écho à cette question. Lundi matin, une vidéo prise à l’arrivée de l’avion présidentiel français au Vietnam défraie la chronique sur les réseaux sociaux. On y voit le bras de Brigitte Macron, dont le corps et le visage sont hors-champ, repousser le visage d’Emmanuel Macron, dans un geste qui pourrait s’apparenter à une claque. S’agit-il d’un jeu affectueux ou d’une expression de colère ?
D’après le Parisien, la première réaction de l’Élysée a été de démentir la véracité des images en suggérant que ces dernières avaient été générées par une IA, avant d’affirmer qu’il s’agissait d’une marque de complicité entre les deux époux. Dans ce cas précis, le caractère exceptionnel du moment permet assez facilement d’attester la véracité des images, mais qu’en sera-t-il pour des vidéos mettant en scène des anonymes ou des moments de vie plus ordinaires ?
Both video and audio is AI but it feels so real. #Veo3 pic.twitter.com/yOdNyX89Hc
— László Gaál (@laszlogaal_) May 26, 2025
« Concernant l’information, il ne va pas falloir attendre longtemps pour que les agents de la désinformation s’emparent de l’outil pour déstabiliser l’opinion et affaiblir encore davantage le lien de confiance. Ne plus pouvoir distinguer le faux revient également à douter du vrai et j’ai du mal à savoir comment nous allons collectivement trouver les solutions. Imposer des marqueurs d’authenticité, utiliser des logiciels de vérification, peut-être, mais ces remèdes auront toujours un train de retard par rapport au poison de la désinformation », estime François Saltiel de France Culture dans une chronique qui assimile Veo 3 à une menace de « chaos informationnel ».
Le septième art bientôt touché de plein fouet par la vague ?
En ce joli mois de mai, les grandes conférences dédiées aux développeurs de Google ou de Microsoft rencontrent dans l’actualité un autre temps fort, culturel cette fois : le festival de Cannes, où l’IA s’est invitée de façon diffuse cette année. Elle y figure comme protagoniste du énième volet de la saga Mission Impossible, mais anime aussi les conversations et les démonstrations du village dédié aux solutions innovantes, relate France 24.
Non sans humour, c’est grâce à l’IA générative que le cinéaste danois Christian E. Christiansen a récemment synthétisé les questions existentielles d’une partie de l’industrie. Son court-métrage, baptisé The Killing of a Business, fait s’interroger tous les grands métiers du cinéma dans une succession rapide de séquences qui donne à la vidéo des allures de clips. Intonations, éclairages, intervenants qui se coupent à la parole, pirouette humoristique, amènent, ou plutôt ramènent, à l’éternel clivage entre considérations artistiques et pratiques mercantiles.
Avec une IA qui, tout de même, change la donne. « Allez tout le monde, on a 47 prises de la même scène à faire aujourd’hui », lance un réalisateur à ses équipes en studio. « Ou alors on laisse l’IA le faire en seulement trois minutes », lâche son producteur en passant à côté de lui, sans même lever les yeux de son smartphone.
Copier n’est pas créer
Dans la mesure où il permet enfin de générer des vidéos « abouties », Veo 3 remet également sur la table l’épineuse question de l’entraînement des modèles. 404 Media relate par exemple comment Veo 3 recycle à l’envi le même jeu de mot facile (basé sur la proximité phonétique entre shit zoo, soit « zoo de merde » et shih tzu, la race de chien) quand on lui demande de générer une séquence montrant un stand upper en train de dire une blague sur scène.
Pourquoi le modèle se limite-t-il à ce jeu de mot, alors même que Gemini, autre production Google, est capable de fournir des réponses aussi subtiles que variées ? « Il est impossible de dire ce que Veo 3 fait en coulisses sans l’avis de Google, mais une théorie possible est qu’il se contente d’une blague sûre et connue, plutôt que de produire le type de contenu qui a embarrassé l’entreprise dans le passé », remarque 404.
Avec ses séquences limitées à 8 secondes (et une limitation, non spécifiée publiquement, dans le volume de vidéos qu’il est possible de créer par jour), Veo n’aura dans les premiers temps qu’une portée limitée, mais ses possibilités n’ont pas fini d’intriguer. « Alors que les vidéos hyperréalistes générées par l’IA deviennent encore plus faciles à produire, le monde n’a même pas encore commencé à déterminer comment gérer la paternité, le consentement, les droits et l’avenir de l’industrie cinématographique », résume Axios. En attendant, certains s’en donnent à cœur joie.
BEHIND THE SCENES : Aliens make a historical documentary about humans long after their extinction
Made in one hour with #veo3 pic.twitter.com/QqlCZgvZY8
—
LOOOP
(@strangelooptv) May 26, 2025