logo TTD entier rouge
Images créée par l'IA SORA

Sora : La révolution de l’IA sur la création de contenu vidéo

Table des matières

Sora : La révolution de l’IA sur la création de contenu vidéo

Par François GRANDJACQUES

La révolution de la création de contenu vidéo par intelligence artificielle (IA) a franchi une étape, jeudi 15 février, qu’on ne pensait pas atteindre avant 4 ou 5 ans.


Un coup dure pour les créateurs de contenu vidéo ?

Sora, au vu des premiers tests présentés sur cette page (https://openai.com/sora) semble véritablement faire date : fini les images tournées pour des plans d’illustration, fin des société de stock d’image, fin des animations même, en tout cas celles qui servent à illustrer un propos.

Runway avait montré la voie, et c’est d’ailleurs cette IA dont nous nous sommes servis pour animer les archives photos pour le film des 90 ans de l’aquarium de Biarritz. Déjà révolutionnaire, l’IA souffrait tout de même de fréquentes hallucinations (qui pouvaient s’avérer très drôle, au passage. Il y a un véritable bêtisier de l’IA à créer).

Même si la démonstration de la page de Sora montre quelques hallucinations toujours, comme dans cette vidéo à voir sur leur site où certains piétons disparaissent soudainement :

Images créée par l'IA SORA
Capture d’écran d’une séquence vidéo générée par Sora : simulation d’un plan aérien sur une citée en bord de mer avec des gens qui marchent

Dans l’ensemble, ce que Sora semble avoir vaincu et qui était le problème récurrent des autres IA, c’est le visage, et d’une manière générale, le comportement humain.

Ici très peu d’erreur. Et cette sensation vague que tout est cotonneux, que les contours sont trop doux, les couleurs trop saturés, disparaît. La capture suivante est issue d’un vidéo où l’IA simule le reflet dans une vitre de métro. Pas d’essai d’amélioration de la réalité, la vidéo est banale et ne cherche pas à impressionner.

Car c’est souvent le cas de l’IA, et de MidJourney par exemple, on refait la réalité mais en un peu mieux. Comme si nous étions tous déprimés par la vie et qu’il fallait transformer MidJourney en divertissement/spectacle, plutôt qu’en simple outil de création d’images.

Images créée par l'IA SORA
Images créée par l’IA SORA d’un chantier du BTP vu de dessus

Les différences Sora vs Runway

Contrairement à Runway, qui se concentre sur une suite plus large d’outils de création assistée par IA pour les artistes et les créateurs, Sora se spécialise dans la génération de vidéos de haute qualité, exploitant la puissance de l’IA pour créer des visuels et des narrations.

Runway, d’autre part, offre une gamme d’outils qui s’étend au-delà de la vidéo, y compris la retouche d’images, la génération de texte, et d’autres formes de créations artistiques comme la possibilité d’enlever le fond derrière un sujet.

Sora, quant à lui, qui n’est pas encore sorti pour le grand public, semble plus être une déclinaison de ChatGpt. C’est à dire que tout se fera par incites, du texte, des phrases, des mots.

Sur Runway, il y a également la possibilité d’utiliser des incites, mais on trouve aussi un pinceau qui sert à sélectionner une partie de l’image plutôt qu’une autre, ainsi que des outils de sens du mouvement. On peut forcer le mouvement de l’image vers la droite, vers la gauche, vers le fond, etc.

Différences Fondamentales avec les Méthodes Traditionnelles

Avant l’avènement de Sora et de technologies similaires, la création de contenu vidéo par IA était largement limitée à des tâches simples comme l’amélioration de la qualité des images, la génération de courts clips basés sur des templates prédéfinis, ou encore l’animation de personnages 2D de manière rudimentaire. Ces méthodes manquaient de la capacité à générer des vidéos complexes et réalistes, nécessitant souvent une intervention humaine importante pour atteindre un résultat de qualité.

Sora, en revanche, utilise des algorithmes avancés d’apprentissage profond pour analyser et comprendre le contenu vidéo à un niveau bien plus détaillé, permettant la génération de vidéos qui sont non seulement réalistes mais aussi capables de raconter des histoires complexes, intégrant des éléments visuels et auditifs de manière cohérente et créative.

Images créée par l'IA SORA
Capture d’écran d’une séquence vidéo générée par Sora dans laquelle on voit le reflet d’une jeune fille dans la vitre du métro qui donne sur la ville extérieure.

Parmi les avancées apportées par Sora, en voici quelques unes marquantes :

  • Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis du sujet et de l’arrière-plan. Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais également comment ces choses existent dans le monde physique.
  • Sora peut également créer plusieurs plans dans une seule vidéo générée, et qui conservent avec précision les personnages et le style visuel.
  • Chacune de leurs vidéos sera marqué d’une méta donnée, qui peut déterminer quand une vidéo a été générée par Sora : les métadonnées C2PA.
  • En plus de pouvoir générer une vidéo uniquement à partir d’instructions textuelles, le modèle est capable de prendre une image fixe existante et de générer une vidéo à partir de celle-ci, animant le contenu de l’image. Le modèle peut également prendre une vidéo existante et l’étendre ou remplir les images manquantes. RunWay est également capable de cette prouesse, Mais Sora semble bien plus puissant.
  • Le fonctionnement technique : Cette IA prend la vidéo brute en entrée et produit une représentation latente compressée à la fois temporellement et spatialement. Sora est formé et génère ensuite des vidéos dans cet espace latent compressé. Nous formons également un modèle de décodeur correspondant qui mappe les latents générés à l’espace des pixels.
  • Sora peut également être invité à utiliser d’autres entrées, à la place des incites, telles que des images ou des vidéos préexistantes. Cette capacité permet à Sora d’effectuer un large éventail de tâches d’édition d’images et de vidéos : créer une vidéo en boucle parfaite, animer des images statiques, étendre des vidéos vers l’avant ou vers l’arrière dans le temps, etc.
  • Sora est donc capable d’étendre les vidéos, soit en avant, soit en arrière dans le temps. Vous pouvez utiliser cette méthode pour étendre une vidéo vers l’avant et vers l’arrière afin de produire une boucle infinie transparente.
  • Sora peut également interpoler progressivement entre deux vidéos d’entrée, créant ainsi des transitions fluides entre des vidéos avec des sujets et des compositions de scènes entièrement différents.
  • Interagir avec le monde. Sora peut parfois simuler des actions qui affectent l’état du monde de manière simple. Par exemple, un peintre peut laisser de nouveaux traits sur une toile qui persistent dans le temps, ou un homme peut manger un hamburger et laisser des marques de morsure.
  • Simuler des mondes numériques. Sora est également capable de simuler des processus artificiels, par exemple les jeux vidéo. Sora peut simultanément contrôler le joueur dans Minecraft tout en restituant le monde et sa dynamique en haute fidélité. Ces capacités peuvent être obtenues en invitant Sora avec des légendes mentionnant « Minecraft ».

Innovation et Créativité

« Malgré des recherches et des tests approfondis, nous ne pouvons pas prédire toutes les manières bénéfiques dont les gens utiliseront notre technologie, ni toutes les manières dont ils en abuseront. C’est pourquoi nous pensons que l’apprentissage de l’utilisation réelle est un élément essentiel de la création et de la diffusion de systèmes d’IA de plus en plus sûrs au fil du temps. »  – OPEN AI

Cette capacité à transformer le texte en vidéo ouvre des portes inédites à la créativité, rendant la production vidéo accessible à un public beaucoup plus large, sans nécessiter de compétences techniques approfondies.

Runway, avec sa suite d’outils diversifiée, encourage également la créativité à travers l’utilisation de l’IA, mais d’une manière qui nécessite souvent plus de familiarité avec les différents aspects de la création numérique. Néanmoins, cette approche un peu plus complexe garantit peut-être à l’internaute une plus grande flexibilité et un contrôle accru sur sa demande.

Il faudra voir à l’expérience, sur le long terme. Google a, par le passé, gagné la bataille des moteurs de recherche en proposant pourtant une interface ultra simple. À l’époque, les moteurs de recherche permettaient de donner beaucoup plus de détails sur les particularités de notre recherche. Et pourtant, l’efficacité de la réponse de Google a tout emporté sur son passage.

Accessibilité et Mise à Disposition

Pour l’instant, Sora n’a pas encore donné la date de mise à disposition de son IA. Elle est pour l’instant testée par quelques graphistes et vidéastes, susceptibles de repérer les erreurs et de pousser les possibilités de Sora.

Un aspect crucial de la révolution de la création de contenu par IA est l’accessibilité de ces technologies. Quand cette IA sera mise à disposition de tous, elle démocratisera encore plus l’accès à des outils de création de contenu vidéo de pointe, permettant à quiconque d’expérimenter et de produire des vidéos de qualité professionnelle sans investissement lourd en équipement ou en formation spécialisée. À se demander si la vidéo, dans son aspect technique, ne va pas devenir équivalente à la photo. Il suffit d’appuyer sur un bouton pour l’une, écrire une phrase pour l’autre.

Reste le talent, l’imagination et la connaissance de la mise en scène… Cela n’est pas encore fourni par l’IA.

de François GRANDJACQUES

Appeler le 0609852132

👉Découvrez l’article qui nous est consacré dans IA Mania ainsi que l’interview exclusive de François sur l’IA

Interview de François par IA Mania