Intelligence Artificielle

Gen-4.5 de Runway surclasse Google et OpenAI dans la course à la vidéo générative

Gen-4.5 de Runway surclasse Google et OpenAI dans la course à la vidéo générative

Un challenger bouscule les géants

Une jeune pousse de près de 100 personnes, Runway, vient de créer la surprise dans la vidéo générée par IA. Son nouveau modèle, Gen 4.5, arrive et bouleverse la hiérarchie établie par les acteurs historiques. Là où l’on attendait Google ou OpenAI en tête, c’est ce petit acteur qui capte l’attention en prenant l’avantage sur le terrain qui compte le plus: la préférence des utilisateurs face aux résultats.

Un classement indépendant qui change la donne

Sur le tableau de bord de Video Arena, un classement maintenu par un acteur d’analyse indépendant, Gen 4.5 occupe la première place. Juste derrière, Veo 3 de Google se hisse en deuxième position, tandis que Sora 2 Pro d’OpenAI n’apparaît qu’au septième rang.
L’intérêt de ce palmarès, c’est sa méthode: des tests à l’aveugle. Les personnes comparent des vidéos sans savoir d’où elles viennent. On mesure donc une préférence pure, sans effet de marque, ce qui donne un signal net sur la qualité perçue. Pour une petite équipe, devancer des groupes aux moyens quasi illimités est un message fort: la focalisation et la rigueur peuvent déverrouiller des frontières que l’on croyait réservées aux géants.

A lire :  Anthropic Signe un Partenariat de 200 M$ en IA Agentique avec Snowflake

Pourquoi Gen 4.5 séduit

Gen 4.5 transforme des prompts textuels en vidéos haute définition, mais son attrait ne tient pas qu’à la résolution. Les retours mettent en avant une meilleure compréhension des mouvements humains, des déplacements de caméra, de la physique et des enchaînements cause–effet.
Concrètement, lorsque les utilisateurs décrivent une action précise — un personnage qui interagit avec son environnement, une caméra qui suit une trajectoire complexe, des objets qui réagissent de manière plausible — le modèle produit des séquences plus cohérentes, plus fluides et plus crédibles. Cette cohérence visuelle et narrative est précisément ce qui fait la différence à l’œil nu.

Une aisance dans l’action

  • Gestion plus fine des transitions et des accélérations de mouvement.
  • Réalisme accru dans les interactions entre personnages et décors.
  • Meilleure tenue des angles de caméra et de la profondeur de champ.
  • Effets de cause à effet plus lisibles, ce qui renforce la narration.

Un timing qui pique les mastodontes

Alors qu’OpenAI occupe souvent la scène médiatique avec les partenariats hollywoodiens de Sora et que Google met en avant les progrès de Veo, Runway a avancé ses pions plus discrètement. Fondée en 2018 et valorisée à environ 3,55 milliards de dollars selon PitchBook, la société présente aujourd’hui ce que son dirigeant décrit comme une “réussite fulgurante”… qui a en réalité demandé sept années de travail.
En interne, le modèle était surnommé “David” — un clin d’œil évident au duel David contre Goliath. L’image est parlante: la bataille se déroule dans l’un des domaines les plus disputés de l’IA, où la vidéo sert de révélateur à la maîtrise du multimodal.

A lire :  Chai Discovery Lève 130 M$ pour Accélérer la Conception d'Im molécules grâce à l'IA Soutenue par OpenAI.

Ce que cela dit de la course à l’IA vidéo

La génération vidéo est devenue un baromètre de la compréhension du monde par les modèles: intégrer texte, mouvement, logique physique et intention créative dans un même flux. Dans ce contexte, la victoire d’un outsider sur un classement neutre laisse entendre que l’innovation rapide et ciblée peut rivaliser avec la puissance de feu des plus grands.
À court terme, on peut s’attendre à une intensification de la concurrence sur la qualité perçue, la vitesse d’itération et la fiabilité des scènes complexes. À moyen terme, le terrain de jeu va s’étendre: meilleur contrôle de la temporalité, éditions précises image par image, et intégration plus fluide avec les outils des créateurs.

Des implications concrètes pour créateurs et entreprises

  • Prévisualisation plus rapide pour la publicité, le cinéma et le jeu vidéo.
  • Prototypage de scénarios, de storyboards animés et d’angles de caméra sans lourde logistique.
  • Réduction des coûts pour des contenus courts à fort impact visuel.
  • Accélération des cycles créatifs: on teste, on ajuste, on régénère — jusqu’à obtenir exactement l’action voulue.

FAQ

Comment fonctionnent les tests à l’aveugle sur un leaderboard comme Video Arena ?

Les participants visionnent deux sorties sans connaître leur origine et votent pour celle qu’ils préfèrent. En répétant ces duels sur de nombreux prompts et avec beaucoup de votants, on obtient un classement basé sur la préférence collective, plutôt que sur la notoriété d’une marque.

Quels types de projets profitent le plus de ce type de modèle vidéo ?

Tout ce qui exige un rythme visuel marqué et des mouvements crédibles: bandes-annonces, social ads, prévisualisations de scènes, clips musicaux, démonstrations produit, contenus éducatifs où la clarté des actions compte autant que l’esthétique.

A lire :  Les employés de Microsoft rebaptisent avec humour le drame d'OpenAI

Comment rédiger un bon prompt pour la vidéo ?

Soyez précis sur quatre axes:

  • le sujet (qui/quoi),
  • l’action (mouvements, interactions),
  • la caméra (plans, trajectoires, vitesse),
  • l’ambiance (lumière, style, rythme).
    Ajouter des contraintes simples (“caméra épaule, lumière douce, fin sur gros plan”) améliore souvent la cohérence du résultat.

En quoi la “compréhension de la physique” change-t-elle le rendu ?

Elle évite les incohérences visibles: gravité plausible, collisions crédibles, inertie des objets, timing logique entre action et réaction. Le spectateur perçoit alors une continuité naturelle, ce qui renforce la crédibilité globale.

Y a‑t‑il des points de vigilance éthiques à garder en tête ?

Oui: droits sur les personnes et les marques, risque de deepfakes, transparence sur l’usage de contenus générés et respect des politiques de modération. Les équipes doivent mettre en place des garde-fous et documenter l’origine des assets utilisés.