Le quotidien new-yorkais estime que les deux firmes utilisent ses articles sans son autorisation pour entraîner les robots de leurs chabots, tels ChatGPT et Bing Chat. Le journal a donc déposé une plainte contre OpenAI et Microsoft, après des négociations infructueuses. CScience revient sur ce nouveau combat contre des géants de l’IA.
Nous publions un article prémonitoire le 20 décembre 203, intitulé IA génératrice et droit d’auteur : où tracer la ligne. Une semaine plus tard, on apprenait que le Times poursuivait Open AI et son partenaire Microsoft devant le tribunal fédéral de Manhattan, aux États-Unis.
Le média affirme dans sa requête « que des millions d’articles publiés par le Times ont été utilisés pour former des chatbots automatisés qui concurrencent désormais l’organe de presse en tant que source d’information fiable ». Aucune exigence monétaire n’est apparue à ce stade, mais OpenAI et Microsoft pourraient être tenues responsables de « milliards de dollars de dommages ».
Pour le Times, OpenAI (qui pèserait 80 milliards de dollars américains) se servirait de ses textes et ceux d’autres organismes de presse sans leur autorisation et sans aucune compensation, pour attirer des investisseurs. La firme technologique de San Francisco chercherait à profiter des investissements du Times, en « utilisant son travail, sans paiement, pour créer des produits qui se substituent au Times et lui volent son public ».
Éric-Pierre Champagne, président de la Fédération professionnelle des journalistes du Québec, a souhaité réagir : « La décision du New York Times illustre l’importance du travail des médias et des journalistes qui permet d’alimenter les bases de données d’outils d’intelligence artificielle. Sans ce travail, il serait pour le moins plus complexe pour des sociétés comme OpenAI de recueillir autant d’informations. »
Les grands modèles de langages (LLM ou large language model, en anglais) utilisés dans l’IA peuvent générer de fausses informations ou les déformer. La plainte présente un exemple avec le résultat proposé par la plateforme Bing Chat, qui en résumant un article du Times sur les 15 aliments les plus sains pour le cœur, en mentionne 12 n’étant pas dans l’article original, ou encore génère des extraits d’articles ou textes très proches qui ne sont pourtant accessibles que via un abonnement payant.
Des discussions en cours
Certains médias comme CNN ou Fox seraient en discussion avec OpenAI, alors que d’autres ont déjà trouvé des accords sous forme de licences comme l’Associated Press.
OpenAI a déclaré « être surpris et déçu » par le Times et estimé que « l’utilisation d’œuvre protégée par le droit d’auteur pour former ses technologiques est un usage loyal au regard de la loi ». Mais le Times allègue qu’il ne s’agit pas d’une utilisation équitable (« fair use » ou « fair dealing » en anglais).
Un combat juridique
Le Times était également en pourparlers avec OpenAI, mais a finalement décidé d’aller en justice. Ce recours ne surprend pas Vincent Bergeron, avocat du cabinet montréalais Robic, spécialisé en propriété intellectuelle au Canada. «Le Times poursuit sur deux angles : les données d’entraînement des robots qui sont des articles entiers du Times protégés par des droits d’auteurs, et les textes générés qui reproduisent des articles entiers ou des parties importantes de ces articles ».
La cour va devoir analyser des faits nouveaux liés à la violation des droits d’auteurs, en prenant en compte l’hallucination des modèles d’IA qui peuvent créer de la désinformation. « Cela pourrait devenir diffamatoire si le robot dit que le New York Times a écrit quelque chose d’horrible qui n’était pas dans l’article initial », poursuit l’avocat.
Les experts s’accordent pour dire que sans accords, c’est la Cour suprême des États-Unis qui devrait finir par trancher, « car la question est trop grande pour l’économie et l’innovation en général », ajoute Me Bergeron.
« Dans un contexte où les médias font face à une crise des revenus sans précédent, il est d’autant plus important qu’ils soient compensés pour leur travail. Plus que jamais, l’information a une grande valeur dans notre société. Si nécessaire, les lois sur les droits d’auteur devront aussi être revues pour tenir compte des nouvelles réalités, comme l’intelligence artificielle », pense M. Champagne.
Crédit Image à la Une : David Smooke, Mojahid Mottakin