Sora d’OpenAI : le réalisme absolu, sur le bout de la langue

Sora d’OpenAI : le réalisme absolu, sur le bout de la langue

OpenAI dévoilait, le 15 février dernier, son nouveau logiciel de génération vidéo Sora, capable de générer des vidéos plus réalistes que tout ce que nous avons pu voir auparavant, créant sur le web une vague d’excitation et d’inquiétudes.

Le logiciel n’est pas encore accessible au public. Seulement un nombre restreint de designers, réalisateurs et artistes y ont accès pour pouvoir le tester, et conseiller OpenAI quant aux potentielles améliorations à apporter à son produit pour le rendre plus facile d’utilisation dans le monde professionnel.

À défaut d’avoir déjà été démocratisé auprès du grand public, à en juger par les exemples que nous montrent ses développeurs, Sora serait révolutionnaire. À priori, les résultats qu’on en obtient n’ont rien à voir avec les vidéos cauchemardesques d’il y a un an, générées par l’IA, et dont certaines ont fait le tour du web. Pensons à la vidéo où l’on reconnaît l’acteur américain Will Smith en train de dévorer des spaghettis, et qui, encore aujourd’hui, fait rire les internautes. Cette fois-ci, on en est loin, puisque la qualité de ce qui est produit avec Sora est telle que, tout comme celle des images générées avec Midjourney et DALL-E, pour bon nombre de personnes, il sera impossible d’en voir la différence avec la qualité des images et vidéos qui n’auront pas été générées par l’IA.

Une compréhension de la réalité humaine ahurissante

Open AI a publié sur les réseaux sociaux un grand nombre d’exemples concrets de ce que Sora peut réaliser, mais son site web en abrite encore plus. Dans la section dédiée à la promotion de Sora, on peut y voir des vidéos de chiots qui jouent dans la neige, des vues à vol d’oiseau sur des paysages à couper le souffle, un plan rapproché détaillé d’un homme dans un café, et plus encore. La force de Sora réside dans le réalisme, mais le logiciel s’attaque également à l’animation 3D, et avec succès.

« Le pas de géant qu’on vient de réaliser va au-delà de la qualité des images. »

– Placide Poba-Nzaou, chercheur et spécialiste en intelligence artificielle

Mentionné sur la même page web, les vidéos générées par Sora peuvent atteindre une durée d’une minute maximum, et en apparence, le processus de réalisation est simple. Il suffit, comme avec Pika Labs, qui génère de la vidéo, et Midjourney, qui crée des images, de rédiger une courte requête textuelle (prompt) décrivant ce que l’on souhaite obtenir, et le logiciel s’occupe de fabriquer le résultat. OpenAI affirme sur son site web que « Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques, et des détails précis sur le sujet et l’arrière-plan. Le modèle comprend non seulement ce que l’utilisateur demande dans son prompt, mais aussi comment ces choses existent dans le monde physique. »

Selon Placide Poba-Nzaou, chercheur et spécialiste en intelligence artificielle et professeur à l’Université du Québec à Montréal, « le pas de géant qu’on vient de réaliser va au-delà de la qualité des images. Ce qui a été réalisé par OpenAI, c’est la démonstration de la capacité des outils technologiques d’appréhender la dynamique de la vie humaine. »

Un logiciel pas tout à fait parfait

La compagnie de recherche en IA vend les prouesses de sa création, mais n’en cache pas ses lacunes. Sora peut avoir du mal à représenter les interactions physiques entre un humain et des objets, et n’a pas une compréhension totale des notions de temps et de direction, comme la droite et la gauche. De plus, comme avec tous les logiciels de génération par IA, le mouvement et l’anatomie des mains restent encore une partie de l’être humain difficile à illustrer. On peut voir, dans la section de l’article dédiée aux lacunes du logiciel, des vidéos où des personnages apparaissent de nulle part pour ensuite disparaître, et où des objets qui devraient entrer en collision finissent plutôt par fusionner.

Open AI admet que Sora « peut avoir du mal à simuler avec précision la physique d’une scène complexe et peut ne pas comprendre des cas spécifiques de cause à effet. Par exemple, une personne peut prendre une bouchée d’un biscuit, sans que le biscuit ne montre ensuite de marque de morsure. »

Les craintes suscitées sont-elles justifiées ?

Chaque avancée en lien avec l’IA pèse sur une partie de la population, qui ne se réjouit pas de voir un « robot » devenir progressivement plus humain. M. Poba-Nzaou affirme que les craintes face au progrès de l’IA « sont tout à fait fondées et légitimes ». Après tout, le progrès ne s’arrêtera pas aujourd’hui. De plus en plus, on observe nos machines développer « des capacités et des fonctionnalités qui jusqu’à présent n’ont été associées qu’à l’être humain », et selon le chercheur, la question n’est pas de savoir « jusqu’où une telle technologie va se rendre, mais plutôt de savoir ce qu’on veut en faire, et comment on veut le faire ». 

Dans le cas de technologies comme celles générant vidéos et images, l’élément qui devrait être observé scrupuleusement selon l’expert, encore plus que leur évolution, c’est leur utilisation, car c’est ce qu’on en fait qui peut avoir de sérieuses conséquences, et non leur existence statique. Parmi les dangers à considérer, on relève le risque lié à la désinformation. Bien que dans le cas de Sora, OpenAI travaille activement, de concert avec des experts, à bloquer les prompts impliquant de la violence, des célébrités ou de la haine, et à développer des outils pour contrer l’utilisation à mauvais escient, M. Poba-Nzaou croit que « la sécurité à 100%, c’est impossible ». 

Il y a un retard à rattraper selon le chercheur, autant en ce qui a trait à la sensibilisation que sur le plan de la régulation législative, afin de protéger la société contre les retombées d’usages néfastes de l’IA. Une invention innovante comme Sora ne serait pas nécessairement dangereuse, si utilisée à des fins compatibles avec l’objectif initial ayant motivé sa création.

Crédit Image à la Une : OpenAI