Sora, l'impressionnant modèle de création de vidéos IA par OpenAI

OpenAI ne veut pas s’arrêter aux images ou au texte. Avec Sora, le créateur de ChatGPT se lance à l’assaut de la vidéo. Ce modèle d’intelligence artificielle « texte vers vidéo » peut générer des clips d’une minute tout en maintenant la qualité visuelle tout du long.

Une qualité photoréaliste pour des vidéos d’une minute

Il existe déjà des modèles IA pour les vidéos, comme Runway chez Google par exemple, mais les clips produits ne dépassent pas quelques secondes. Sora va donc plus loin et surtout, surprend par la qualité photoréaliste des images générées. Sam Altman, le patron d’OpenAI, a partagé plusieurs de ces créations à partir de requêtes d’internautes, et le site web de la société en propose plusieurs qui sont tout aussi étonnantes.

https://twitter.com/sama/status/1758206825756000613

https://twitter.com/sama/status/1758206987094147252

https://twitter.com/OpenAI/status/1758192965703647443

https://twitter.com/OpenAI/status/1758192957386342435

Sora est capable de générer des séquences complexes avec plusieurs personnages, des mouvements de caméra spécifiques et des détails sur le sujet et son environnement. « Le modèle comprend non seulement ce que l’utilisateur a demandé dans sa requête, mais comment les choses doivent exister dans l’univers physique », détaille l’entreprise.

Pour le moment, Sora est un projet de recherche qu’OpenAI a mis entre les mains d’une poignée d’heureux élus : artistes, créateurs de contenu triés sur le volet et chercheurs en sécurité. La création des vidéos demande plusieurs heures de calcul, mais pas plusieurs jours.

Par ailleurs, Sora a des faiblesses dans la simulation précise de la physique d’une séquence complexe, ainsi que dans des instances de cause à effet. La société donne l’exemple d’un biscuit croqué par une personne, sans que la morsure n’apparaisse dans le biscuit. Sora peut également inverser la droite et la gauche.

Et pour les cinéastes qui craignent de perdre leur gagne-pain, qu’ils se rassurent : il ne sera pas possible de créer un film cohérent en collant 90 minutes de clips générés par Sora ! Les vidéos du le modèle de langage sont à chaque fois un peu différentes pour une même requête, ce qui empêche la continuité entre les clips.

En revanche, Sora semble taillé pour les créateurs de contenus sur les réseaux sociaux qui veulent partager des contenus brefs, ou pour les annonceurs ayant besoin d’une publicité animée. Reste néanmoins à régler quelques questions de la plus haute importance concernant la sécurité et la provenance des données.

Sora rejettera les requêtes qui enfreignent ses conditions d’utilisation : contenu violent et à caractère sexuel, haine, ressemblance avec des célébrités, ou encore la copie d’œuvres protégées par le droit d’auteur. Un système de détection est mis en place pour déterminer si une vidéo a été générée avec le modèle. Enfin, Sora a été entraîné sur des données pour lesquelles OpenAI a obtenu une licence, ainsi que sur les contenus du domaine public. Cela n’empêchera sans doute pas les plaintes de s’accumuler !

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

OpenAI Sora

Mickaël Bazoge