L’enseignement supérieur à l’épreuve de l’IA générative

Depuis la mise en marché de ChatGPT par Open AI en novembre 2022, suivie de celle d’autres robots conversationnels comme Bard, chez Google, ou Bing, chez Microsoft, le milieu académique est fortement ébranlé. La session d’automne 2023, qui s’est amorcée la semaine dernière dans les cégeps de la province et qui débutera sous peu dans les universités, est marquée par un constat : il est dorénavant impossible de nier que les étudiants connaissent ces outils et qu’ils peuvent les utiliser pour accomplir des tâches variées, allant de la synthèse à la traduction, à la génération de contenu textuel, au code informatique, en passant par l’édition et la recherche.

GPT-4, la nouvelle version de ChatGPT, est, sans grande surprise, encore en proie à ce que l’industrie qualifie d’« hallucinations », soit à la production d’informations qui sont fausses ou qui ne sont pas issues de ses données d’entraînement. Elle est néanmoins extrêmement performante dans certains contextes, et présente des facultés sans précédent.

Par exemple, non seulement GPT-4 a passé haut la main les examens d’admission des écoles de droit américaines, mais il a aussi réussi les examens du Barreau des différents États et les examens standardisés de nombreuses autres disciplines universitaires. Les modèles de langage sont également en mesure de générer des essais et des dissertations entières qui correspondent, au moins en partie, sinon totalement aux exigences académiques attendues dans de nombreux contextes d’enseignement.

Quand ChatGPT fait le travail

Entre la session d’automne 2022 et d’hiver 2023, quelques semaines après le lancement de ChatGPT, j’ai testé sa performance aux évaluations de mon cours de philosophie 101 au cégep. J’ai donné les consignes très précises à ChatGPT pour la rédaction de la dissertation finale : la question, la structure détaillée et les critères d’évaluation. À mon grand étonnement, l’outil a généré en quelques secondes un texte de qualité satisfaisante pour le niveau collégial. Avec quelques directives supplémentaires, la dissertation est passée de bonne à très bonne.

« (…) force est de constater que dans de nombreux contextes, les nouveaux systèmes d’IA générative sont en mesure de réaliser en partie ou en tout le travail des étudiants à leur place. »

– Andréane Sabourin Laflamme, professeure de philosophie et d’éthique de l’IA au Collège André-Laurendeau

La performance de l’outil varie assurément selon la discipline d’enseignement, le type d’évaluation et le niveau d’études, mais force est de constater que dans de nombreux contextes, les nouveaux systèmes d’IA générative sont en mesure de réaliser en partie ou en tout le travail des étudiants à leur place. Pour que les évaluations reflètent véritablement les compétences développées dans le cadre des cours, nous devons donc rapidement changer nos pratiques.

Interdire et sanctionner : le problème de la preuve

RDNE Stock project (Pexels) et Mohamed Nohassi (Unsplash)

Face à cette situation, on peut simplement interdire l’utilisation de ChatGPT et d’autres outils d’IA générative et considérer leur usage comme une fraude intellectuelle, ou encore comme une forme de plagiat — infractions qui sont passibles de sanctions qui peuvent aller de l’échec à la suspension et, même, au renvoi. Bien que cette solution puisse paraître facile à première vue, sa mise en œuvre est complexe et risque même de mener à de graves injustices.

D’abord, compte tenu du fait que les modèles de langage comme ChatGPT génèrent du nouveau contenu à chaque requête, il est pratiquement impossible, contrairement aux formes de plagiat plus classiques, d’en retracer la source et donc de prouver qu’un texte a été généré par l’IA. Même quelqu’un qui sait distinguer le style télégraphique et constant des modèles de langages peut être aisément berné. Une simple reformulation peut facilement effacer les traits caractéristiques d’un texte produit par l’IA. D’ailleurs, des systèmes permettant de réaliser automatiquement cette réécriture sont accessibles en ligne depuis un certain temps.

Récemment, plusieurs outils visant à détecter du contenu textuel généré par l’IA ont été mis en marché, qu’on pense par exemple à Turnitin, GPT Zero ou Compilatio. Ces outils cherchent à évaluer la probabilité qu’un texte ait été produit par l’IA. Or, s’ils détectent assez bien les textes écrits par les humains, ils sont beaucoup moins performants pour reconnaitre les textes générés par l’IA. OpenIA, qui avait, à la fin janvier, lancé son propre système de détection, constatant ses piètres performances, l’a d’ailleurs retiré du marché en juillet dernier.

Malgré leur rendement médiocre, plusieurs professeurs utilisent ces systèmes pour déterminer l’authenticité des travaux qu’ils corrigent. Sans surprise, plusieurs cas de faux positifs ont été signalés dans les médias, et on rapporte même que certains professeurs sont allés jusqu’à accuser une classe entière de plagiat, mettant ainsi réussite et diplomation en péril.

Rappelons qu’une accusation de plagiat peut sérieusement nuire au parcours académique et professionnel des étudiants, sans parler des impacts psychologiques de ce type de processus. Depuis l’arrivée de l’IA générative sur le marché, des étudiants affirment vivre dans la crainte constante d’être faussement accusés de plagiat. Et force est d’admettre que cette inquiétude est justifiée, vu le taux de faux positifs généré par les outils de détection.

« Depuis l’arrivée de l’IA générative sur le marché, certains étudiants affirment vivre dans la crainte constante d’être faussement accusés de plagiat. Et force est d’admettre que cette inquiétude est justifiée, vu le taux de faux positifs généré par les outils de détection. »

– Andréane Sabourin Laflamme, professeure de philosophie et d’éthique de l’IA au Collège André-Laurendeau

On rapportait récemment sur les réseaux sociaux que lorsque l’on soumet un extrait de la constitution américaine ou de la bible à GPTZero, le système conclut qu’il a y a de fortes chances pour que ces textes aient été générés par l’IA. Cette grossière erreur peut s’expliquer par le fait que puisque la constitution américaine et la bible sont sans doute très présentes dans les données d’entraînement de ChatGPT, GPTZero considère qu’il est probable que ces extraits aient été générés par l’IA. Un autre élément d’autant plus préoccupant est qu’il a été démontré que les faux positifs sont plus courants pour les textes écrits par des personnes rédigeant dans une langue qui n’est pas leur langue maternelle (l’anglais, dans l’étude en question). Le système est donc biaisé et peut mener à de la discrimination ou à de fausses accusations de plagiat, marginalisant d’autant plus les étudiants allophones.

Pour le moment, ces systèmes de détection ne sont simplement pas suffisamment fiables pour qu’on puisse les utiliser pour évaluer l’authenticité d’un travail étudiant. Étant donné la mauvaise performance de ces outils, les nombreuses façons dont il est possible de les contourner et les biais qu’ils semblent présenter, les invoquer comme preuve pour soutenir une accusation de plagiat ne devrait simplement pas être admissible.

À moins d’un aveu, il est donc difficile, voire impossible, de prouver avec certitude qu’un travail a été produit par un système d’IA. Dans cette optique, l’interdiction unilatérale du recours à l’IA générative n’est donc pas réellement applicable. Se pose aussi l’épineuse question à savoir si toutes les formes d’utilisation de l’IA générative devraient être considérées comme un manquement à l’intégrité académique. Cette question controversée devrait d’ailleurs faire l’objet d’une réflexion à part entière.

Retour au papier-crayon ?

RDNE Stock project (Pexels)

Pour éviter ces problèmes, au lieu d’interdire l’accès à l’IA, il est aussi possible de l’empêcher. En effet, on peut rapatrier les évaluations en classe : retour au papier-crayon. Cette solution a le mérite d’être simple, mais elle n’est certainement pas parfaite. Le principal souci étant de priver les étudiants des nombreux avantages du traitement de texte, notamment pour l’édition et la correction. Dans certains contextes, ne pas avoir accès à la technologie informatique peut être un réel désavantage.

On peut aussi tenir les évaluations en classe, mais à l’ordinateur. Si l’objectif est de bloquer l’accès à l’IA, permettre aux étudiants de travailler à partir de leur propre appareil n’est pas envisageable. Il faudra donc, si l’on privilégie cette solution, prévoir du matériel informatique en quantité suffisante. Cette option requiert donc nécessairement l’acquisition de matériel et d’infrastructures informatiques par les établissements d’enseignement. Dans ce contexte, des ressources devront être rapidement déployées afin de créer dans les collèges et les universités des « environnements sans IA » pour certaines évaluations.

Or, il ne faut pas négliger que le fait de ramener les évaluations en classe, sur les heures de cours, est chronophage, les professeurs se voyant contraints de condenser ou de charcuter la matière pour faire place aux périodes d’examens. Il faudra donc, si l’on privilégie ce type d’approche, ajouter des plages horaires hors cours pour les évaluations ainsi que prévoir du personnel supplémentaire pour assurer la surveillance de ces évaluations.

Aussi, bien que le fait de tenir les évaluations en classe puisse être pertinent dans certains contextes, cette solution ne convient pas à tous les types de travaux, par exemple, pour les textes de plus grande ampleur ou nécessitant une recherche approfondie. Dans plusieurs cas, sans transformer radicalement la nature des évaluations, il est impossible de les tenir en classe sur une période restreinte. Ces solutions sont également inapplicables dans le contexte de l’enseignement à distance, qui a par ailleurs gagné en popularité depuis la pandémie.

De la répression à l’adaptation et à la formation

De plus en plus de collèges et universités passent de l’approche répressive qui avait prévalu au départ et semblent privilégier une perspective plus nuancée et contextuelle. Il sera nécessaire de créer de nouveaux espaces sans IA qui permettent d’évaluer les compétences en rédaction — compétence qui demeure essentielle malgré la récente concurrence de l’IA à cet égard.

L’IA générative offre des possibilités pédagogiques inédites que nous commençons à peine à explorer. Pour profiter des avantages qu’offre cette technologie en évitant les impacts négatifs, nous devons comprendre ses forces et ses faiblesses et réfléchir aux questions éthiques liées à son usage.

Il est donc essentiel d’accorder aux professeurs, déjà débordés, le temps nécessaire pour adapter leurs pratiques à cette nouvelle réalité, qui exige que nous réfléchissions collectivement à la manière dont nous formons et évaluons les étudiants. Pour ce faire, il faudra aussi leur offrir la formation nécessaire pour leur permettre de s’adapter à cette nouvelle technologie, qui transforme de manière inédite notre rapport à l’écriture.