Midjourney : Au-delà du réel, ou presque

Midjourney : Au-delà du réel, ou presque

Le domaine de l’intelligence artificielle (IA) générative commence l’année 2024 en force, avec la possibilité de générer des images plus réalistes que jamais grâce à la récente mise à jour du logiciel Midjourney. Quel chemin cette technologie prendra-t-elle dans notre société dans les mois à venir ?

Le 21 décembre dernier, Midjourney lançait la sixième version de son logiciel de génération d’images du même nom. La précédente, soit la 5.2, poussait déjà les limites de l’imaginaire quant à ce que l’IA pouvait créer. La nouvelle édition s’est donné pour mission de pousser ces limites encore plus loin. Les principales avancées qu’elle met sur la table; un remaniement presque total du fonctionnement des prompts, la possibilité d’incorporer du texte dans les images et une grande amélioration des textures.

Un « prompt » est un terme anglais qui désigne un ensemble de commandes écrites données à un logiciel pour qu’il puisse les interpréter et ensuite créer un produit. Dans le cas de Midjourney, le « prompt » est une chaîne de mots descriptifs, et le produit est une image.

Comparaison entre la version 5.2 et la version 6

Tirées du compte Twitter de Chase Lean, éducateur en intelligence artificielle, voici quelques exemples concrets montrant les progrès de Midjourney en 2023, avec à gauche une image générée avec la version 5.2 du logiciel, et à droite, la version 6 :

En ce qui a trait aux portraits, la différence se voit dans l’approche selon laquelle le logiciel exploite la lumière et la texture. À gauche, la texture de la peau et des cheveux est beaucoup plus polie, tandis qu’à droite, elle est plus détaillée. Pour ce qui est de l’éclairage, nous avons maintenant droit à des ombrages plus définis et une compréhension de la lumière sur la peau plus réaliste, alors qu’elle était autrefois plus uniforme.

L’intelligence artificielle a encore du mal à comprendre certains concepts visuels, tels que la superposition d’objets, les mains, et le texte écrit. Midjourney s’est attaqué à ce problème dans sa dernière version. Le logiciel n’est pas parfait, mais en comparant les deux images ci-dessus, on constate que la version 6 a plus de facilité à illustrer un simple mot que son prédécesseur.

Midjourney peut également illustrer des produits tels que de la nourriture. L’image de droite, avec son texte parfaitement généré, ses dimensions bien proportionnées et ses textures réalistes, a tout pour se faire passer pour la vraie photo commerciale d’un produit existant.

« (…) en 2024, il y a près de 50% des démocraties qui sont en élections. Donc, on s’attend à une abondance de « deepfakes » et de « fake news » pour supporter des partis ou pour brouiller des élections. »

– Olivier Blais, cofondateur et VP science de la décision chez MOOV AI

Des avancées qui ne viennent pas sans controverse

L’arrivée du logiciel ChatGPT en novembre 2022 a donné naissance à de nombreux questionnements sur les risques que pose l’intelligence artificielle, et à chaque avancée dans le domaine, ceux-ci se font sentir de plus belle. Selon Olivier Blais, cofondateur et VP science de la décision chez MOOV AI, dans le cas de Midjourney et des autres logiciels de génération d’images, un des plus grands dangers en ce moment, « c’est le fait qu’en 2024, il y a près de 50% des démocraties qui sont en élections. Donc, on s’attend à une abondance de « deepfakes » et de « fake news » pour supporter des partis ou pour brouiller des élections. »
L’IA peut aussi faire mal sur les plans professionnel et éthique. Guillaume Roy-Fortin, professeur en mathématiques à l’École de technologie supérieure (ETS), note que « le droit d’auteur vient rapidement en tête. Plus on devient réaliste, plus on peut se rapprocher d’images qui existent déjà et qui sont classées sous législation de droit d’auteur. » Le professeur en mathématiques s’inquiète aussi quant à l’implication de biais sociaux que les logiciels comme Midjourney peuvent illustrer dans leurs produits, ainsi que les emplois qu’ils pourraient rendre désuets : « Certains vont argumenter que c’est le cours naturel des choses, mais on peut se questionner quant à la vitesse à laquelle c’est en train de se transformer. »

« Quand on voyait une image, on n’avait pas le réflexe de se demander si cette image-là était vraie ou fausse, parce que c’était impossible de créer une image de cette qualité. Maintenant, on va être amené à faire ça de manière naturelle. »

– Guillaume Roy-Fortin, professeur en mathématiques à l’École de technologie supérieure (ETS)

Une période d’adaptation historique

Si notre société est appelée à changer à la suite des avancées en IA, il ne faut toutefois pas être fataliste selon M. Roy-Fortin : « Il y a des exemples dans l’histoire où la technologie a forcé une adaptation, et je pense qu’on est juste en train de le vivre là (…) Ce qui risque d’arriver, c’est une sorte d’éducation sociale collective sur le questionnement automatique de la source. Quand on voyait une image, on n’avait pas le réflexe de se demander si cette image-là était vraie ou fausse, parce que c’était impossible de créer une image de cette qualité. Maintenant, on va être amené à faire ça de manière naturelle. » Olivier Blais, dans une réflexion similaire, affirme que « les risques sont tous atténuables. C’est juste qu’il y a une nouvelle réalité à laquelle il faut s’adapter. »

L’évolution de Midjourney, de la version 1 à la version 6, illustrée par des portraits générés à partir du même prompt (crédit : Algoartist, Reddit)

2024 : L’année de la vidéo générée ?

Nous commençons donc la nouvelle année avec le summum de la perfection de l’image artificielle presque déjà atteint, alors que c’est tout le contraire pour ce qui est de la vidéo générée, et c’est pour cela qu’Olivier Blais croit que le secteur de l’IA va se pencher sur le cas en 2024. « En termes de vidéo, on est loin derrière. Vu que l’IA générative n’est pas suffisamment stable, en ce moment, c’est presque impossible de générer de belles vidéos (…) Je m’attends à voir des solutions un peu à la Midjourney, mais pour la vidéo, qui vont émerger. »

Des logiciels de génération de vidéos tels que Synthesia existent déjà sur le web. Il reste donc à voir quelles frontières ces programmes réussiront à franchir cette année, ainsi que les impacts qu’ils auront sur notre société.

Crédit Image à la Une : Évolution du logiciel Midjourney, de la version 1 à la version 6 (crédits: Chase Lean, Twitter)

À lire également :

Le New York Times attaque en justice OpenAI et Microsoft : un combat de titans