Les banques de données sélectives : la solution contre « l’hallucination » des modèles de langage

Les banques de données sélectives : la solution contre « l’hallucination » des modèles de langage

Utiliser un modèle de langage (LLM) qui puise ses résultats dans une banque de données sélectives permettrait aux entreprises qui font de la recherche d’obtenir des résultats plus précis et qui ne pourront pas avoir été inventés de toutes pièces par l’outil.

Dans un sondage effectué par Intelligent.com en mai 2023, 30 % des étudiants questionnés affirmaient avoir utilisé ChatGPT à des fins scolaires entre 2022 et 2023. En février de cette année, ce nombre s’élevait à 37 %. L’utilisation des modèles de langage tels que ChatGPT pour réaliser des travaux scolaires et des analyses s’est donc répandue rapidement depuis le lancement de l’outil en novembre 2022. Bien que de nombreux étudiants et chercheurs aient bénéficié de la capacité de ce « robot » conversationnel à rechercher, écrire et calculer rapidement, son l’aspect dit « créatif » peut s’avérer être une lame à double tranchant, notamment dans le domaine de la recherche.

Lorsque ChatGPT « hallucine »

Lorsque désiré, ChatGPT peut inventer des histoires, écrire des scripts de films, des poèmes, des chansons et plus encore, au service de l’artiste en manque d’inspiration ou de l’étudiant en quête d’une solution rapide pour remettre son devoir de littérature à temps. Le logiciel peut malheureusement aussi jouer de mauvais tours à son utilisateur, et inventer de toutes pièces des faits historiques ou une chaîne de code, qui, sous un œil inexpérimenté, paraîtra bien réelle. Ce phénomène s’appelle l’hallucination.

« À la base, ChatGPT, c’est un modèle de langage qui joue le rôle d’un cerveau et non d’une base de données. »

– Charles Demontigny, fondateur de QuébGPT et scientifique des données

Charles Demontigny, fondateur de QuébGPT, entreprise ayant pour but de démocratiser l’accès à l’IA pour les PME québécoises, explique que « lorsqu’on parle d’hallucination, c’est que le modèle [ChatGPT] va inventer quelque chose et le présenter comme si c’était un fait. Cela peut être une bonne chose dans un domaine créatif, par exemple si l’on veut écrire une histoire. L’IA est capable de généraliser des faits qui ne sont pas exacts à partir des données qui lui ont été fournies pour son entraînement, mais c’est problématique dans un domaine précis comme la recherche où l’on souhaite avoir des faits très exacts ». M. Demontigny souligne « qu’à la base, ChatGPT est un modèle de langage qui joue le rôle d’un cerveau et non d’une base de données ». Cela dit, lorsque le « cerveau » qu’est Chat GPT doit répondre à une question et qu’il ne possède pas de données à son sujet, il répond ce qui, selon lui, est le plus probable d’être vrai. Mais bien souvent, le résultat est erroné.

« Le fait de présélectionner des données, cela peut permettre à l’utilisateur de l’IA de forcer le modèle de langage à aller chercher des informations dans des données précises. Grosso modo, cela va certes venir limiter sa capacité à halluciner, enlever sa créativité, mais aussi le forcer à aller chercher des données plus précises et augmenter le pourcentage de réponses justes qu’il va donner », ajoute-t-il.

Données approuvées: l’accélération du processus de recherche et les risques de biais

Forcer une IA à chercher ses informations dans des sources et des articles scientifiques préapprouvés et sélectionnés à l’avance par son utilisateur lui assure de recevoir des résultats d’analyses et de recherches qui ne sortiront pas des sentiers battus de son domaine d’études. Est-ce que ce manque de diversité dans la banque de données du modèle peut entraîner des biais dans les résultats qu’elle fournira ? Si oui, « le problème serait humain avant tout », selon Charles Demontigny. Les logiciels comme ChatGPT ou PDF.ai sont des « engins de réflexion », donc s’ils fournissent des analyses ou des sources qui semblent avoir un penchant politique, dans un contexte de recherche en science politique par exemple, c’est que la personne qui s’est chargée de la sélection des données leur a fourni des sources biaisées à la base. L’outil peut donc être utilisé de manière très subjective si désiré, mais faire une bonne sélection de sources devrait limiter les risques de biais que l’IA pourrait fournir. Pour le scientifique, les risques de biais ne sont pas plus élevés avec une IA de recherche qu’avec des chercheurs humains.

Le fondateur de QuébGPT croit que « toute recherche qui nécessite de faire de la revue de littérature et de la rédaction d’articles scientifiques » peut bénéficier d’une IA qui utilise seulement des sources approuvées. Cette dernière peut se charger de la réalisation des tâches fastidieuses du processus de recherche, comme la lecture et l’analyse de données, tout en garantissant des résultats désirés par son utilisateur. Le logiciel devient un excellent assistant de recherche.

Si une entreprise souhaite utiliser un LLM avec une banque de données sélective pour l’assister dans ses recherches, plusieurs modèles sont disponibles sur le web, dont certains qui sont « open source », donc téléchargeables gratuitement. Parmi eux se trouvent notamment PDF.ai, ChatPDF, ainsi que ChatGPT, qui malgré ses défauts, peut être optimisé en utilisant la méthode de génération augmentée de récupération (RAG), qui consiste à améliorer les résultats de recherche d’un modèle de langage en ajoutant des sources supplémentaires à la banque de données qu’elle possède déjà.

Crédit Image à la Une : Édouard Desroches