Le logiciel de génération vidéo par IA Pika 1.0, développé par Pika Labs, fait fureur dans le monde de l’intelligence artificielle depuis l’ouverture de ses portes au grand web le 28 novembre dernier, en ayant déjà généré des millions de vidéos et amassé 55 millions de dollars de financement auprès de grandes entreprises technologiques.
Lors de sa fondation au printemps dernier par des étudiantes en informatique à l’Université Stanford aux États-Unis, la jeune startup avait pour but de « pousser les limites de la technologie et concevoir une future interface de création vidéo simple et accessible à tous ». En entrevue avec Forbes, la PDG et cofondatrice de Pika, Demi Guo, a mentionné la difficulté qu’elle et ses collègues avaient à concevoir un film avec le logiciel d’IA Runway lors de leur participation à un concours lancé par ce dernier. La frustration née de leur échec a donné naissance à Pika 1.0, que les internautes peuvent utiliser depuis plus de deux mois pour laisser libre cours à leur imagination.
Qu’est-ce que Pika peut faire, concrètement ?
Le logiciel est capable de générer des vidéos de plusieurs minutes sous divers styles cinématiques, en passant du photoréalisme à l’animation 2D ou 3D. Une fois la vidéo créée, il est possible de la modifier et même d’agrandir son format. Pour générer une vidéo de toute pièce, il suffit simplement de décrire en anglais la scène imaginée dans la boîte de commande au bas de la page d’accueil, et le logiciel se charge du reste. Il est aussi possible d’utiliser une image spécifique comme source pour permettre à Pika de générer son animation. Qui plus est, Pika peut modifier les éléments d’une vidéo pré-existante, par exemple en changeant la couleur du chandail de quelqu’un ou en remplaçant un objet en arrière-plan par un autre. Le site web dispose d’une interface très facile à naviguer, et il n’est pas nécessaire d’écrire beaucoup de mots dans la boîte de « prompt » pour générer une animation.
La version gratuite alloue 30 crédits par jour à ses utilisateurs, et limite la durée des vidéos générées à trois secondes. Chaque création ou modification d’une vidéo coûte dix crédits, donc autrement dit, le logiciel permet trois vidéos distinctes par jour. Les différentes versions payantes donnent accès à plus de liberté et de fonctions dans la création de contenu.
Voici quelques exemples d’animations créées avec Pika Labs, accompagnées de leurs « prompts »:
Quelles sont les limites du logiciel ?
D’une certaine manière, le logiciel ne se limite qu’à l’imagination de son utilisateur. Paysages, duels épiques, nébuleuses, robots, Pika s’attaque à tout, mais cela ne veut pas dire qu’il le fait toujours bien. Sa force réside dans les animations 3D à la Disney Pixar et 2D à la studio Ghibli, alors qu’il a encore beaucoup de chemin à faire dans le réalisme. Jeremy Pinto, scientifique en recherche appliquée à l’institut de recherche MILA, affirme que les logiciels d’intelligence artificielle « n’ont aucun concept de physique, intégré dans leur modèle génératif leur permettant de comprendre d’emblée comment animer de manière réaliste un élément visuel et que « tout doit être “appris” à partir d’images et de vidéos ».
Le logiciel peine effectivement à respecter l’anatomie humaine et parfois même animale lorsqu’il anime des personnages qui se veulent photoréalistes. « La majorité des plateformes disponibles qui génèrent du vidéo ont ces mêmes lacunes » ajoute M. Pinto, et « l’être humain est très sensible à ce genre de détails là ». Les logiciels d’IA générative ont donc encore beaucoup d’apprentissages à faire dans leur exploration des données visuelles du web avant d’être capable de reproduire réalistiquement des mouvements.
Par exemple, lorsque Pika Labs anime cette photo avec la commande suivante: « A man walks upstream in an enchanted forest during the summer », le logiciel a de la difficulté à faire bouger la jambe du personnage de manière fluide, sans la déformer.
Des lacunes éphémères ?
Jérémy Pinto rappelle qu’il y a un an, les logiciels de génération d’images tels que Midjourney avaient des problèmes similaires quant à la représentation des visages et du corps humain, mais que maintenant, il est presque impossible de distinguer un visage généré par l’IA d’un vrai, et que les défauts actuels résident dans les détails comme les mains et les doigts.
Il est important de mentionner également qu’Open AI a annoncé le 15 février dernier la venue de son propre logiciel de génération vidéo nommé Sora, qui contrairement à Pika Labs qui excelle dans l’animation de style 2D et 3D, se spécialisera dans le réalisme. Le logiciel, qui n’est pas encore accessible au public, pourrait-t-il être celui qui corrigera les lacunes de ses homologues ? Quoi qu’il en soit, la génération vidéo reste plus difficile que la génération d’images, mais si cette dernière s’est perfectionnée aussi rapidement, les logiciels comme Pika et Sora qui donnent vie aux visuels qu’ils génèrent ne tarderont pas à faire des progrès également.
Crédit Image à la Une : Archives