
Lucy Goetz, lycéenne, a obtenu la meilleure note possible pour un essai original qu'elle a écrit sur le socialisme. Alors imaginez sa surprise quand je lui ai dit qu'un nouveau type de logiciel éducatif qu'il testait prétendait avoir obtenu l'aide de l'intelligence artificielle.
Un nouveau détecteur d'écriture manuscrite IA de Turnitin , dont le logiciel est déjà utilisé par 2,1 millions d'enseignants pour détecter le plagiat, a marqué la fin de son essai comme probablement généré par ChatGPT.
"Quoi quoi?" dit Goetz, qui jure qu'il n'a pas utilisé l'outil d'écriture de l'IA pour tricher. "Je suis content d'avoir de bonnes relations avec mes professeurs."
Après des mois à tirer la sonnette d'alarme sur les étudiants utilisant des applications d'IA qui peuvent générer des essais et des devoirs, les enseignants obtiennent leur propre technologie d'IA. Le 4 avril, Turnitin activera le logiciel que j'ai testé pour quelque 10 700 établissements d'enseignement secondaire et supérieur, attribuant une notation « générée par l'IA » et une analyse phrase par phrase du travail des étudiants. Il rejoint une poignée d'autres détecteurs gratuits déjà en ligne. Pour de nombreux enseignants dont j'ai entendu parler, la détection par IA offre une arme pour dissuader une forme de tricherie au 21e siècle.
Mais l'IA seule ne résoudra pas le problème créé par l'IA. L'alerte qui a été générée dans une partie de l'essai de Goetz était une valeur aberrante, mais elle montre que les détecteurs peuvent parfois se tromper , avec des conséquences potentiellement désastreuses pour les étudiants. Les détecteurs sont introduits avant d'avoir été largement contrôlés, mais la technologie de l'IA évolue si rapidement que tout outil est probablement déjà obsolète.
C'est une période charnière pour les éducateurs : s'ils ignorent l'IA, la tricherie pourrait devenir endémique. Pourtant, même les dirigeants de Turnitin me disent que traiter l'IA simplement comme l'ennemi de l'éducation a à peu près autant de sens à long terme que d'essayer d'interdire les calculatrices.
Avant le lancement de Turnitin cette semaine, la société affirme que 2 % des clients lui ont demandé de ne pas afficher les scores d'écriture de l'IA sur le travail des étudiants. Cela inclut une "majorité significative" d'universités au Royaume-Uni, selon UCISA, un organisme professionnel pour les éducateurs numériques.

Pour voir ce qui est en jeu, j'ai demandé à Turnitin un accès anticipé à leur logiciel. Cinq élèves du secondaire, dont Goetz, se sont portés volontaires pour m'aider à le tester en créant 16 échantillons d'essais réels, fabriqués par l'IA et à sources mixtes, à parcourir dans le détecteur de Turnitin.
Le résultat? Plus de la moitié d'entre eux avaient au moins partiellement tort . Turnitin a identifié avec précision six des 16, mais en a raté trois , y compris une alerte dans 8 % de l'essai initial de Goetz. Et je ne vous donnerais qu'un crédit partiel sur les sept autres, où vous étiez correct dans la direction mais avez mal identifié une partie du script généré par ChatGPT ou à sources mixtes.
Turnitin affirme que son détecteur a une précision globale de 98 %. Et il dit que des situations comme celle qui s'est produite avec le procès de Goetz, connu sous le nom de faux positif , se produisent moins de 1% du temps, sur la base de ses propres tests.
Turnitin dit également que vos scores doivent être traités comme une indication et non comme une accusation . Pourtant, des millions d'enseignants comprendront-ils qu'ils doivent traiter les scores IA comme plus qu'un fait ? Après mes discussions avec l'entreprise, ils ont ajouté une mise en garde à leur score qui dit : « Le pourcentage peut ne pas indiquer une tricherie. Une révision s'impose."
"Notre travail consiste à créer des informations directionnellement correctes pour que l'enseignant déclenche une conversation", me dit Annie Chechitelli, chef de produit Turnitin. "Je suis suffisamment confiant pour le mettre sur le marché, tant que nous continuons à éduquer les éducateurs sur la façon d'utiliser les données." Elle dit que la société continuera à peaufiner son logiciel en fonction des commentaires et des nouvelles avancées de l'IA.
La question est de savoir si cela suffira. "Le fait que le système de balisage AI de Turnitin ne fonctionne pas tout le temps est inquiétant", déclare Rebecca Dell, qui enseigne le cours d'anglais avancé de Goetz à Concord, en Californie. "Je ne sais pas comment les écoles peuvent définitivement utiliser la correction comme "preuve" que les élèves utilisent un travail non original."
Contrairement aux accusations de plagiat, le canular de l'IA n'a pas de document source auquel se référer comme preuve. "Cela laisse la porte ouverte à la partialité des enseignants ", déclare Dell.
Pour les étudiants, cela rend la perspective d'être accusé de tricherie avec l'IA particulièrement terrifiante. "Il n'y a aucun moyen de prouver que vous n'avez pas triché à moins que votre professeur ne connaisse votre style d'écriture ou ne vous fasse confiance en tant qu'élève", déclare Goetz.

Pourquoi est-il si difficile de détecter l'IA ?
Détecter le typage de l'IA semble d'une simplicité trompeuse. Lorsqu'un collègue m'a récemment demandé s'il pouvait détecter la différence entre les vrais e-mails et ceux générés par ChatGPT, je n'ai pas très bien réussi.
Détecter l'écriture de l'IA avec un logiciel implique des statistiques. Et statistiquement parlant, ce qui distingue l'IA des humains, c'est qu'il s'agit d'une « moyenne extrêmement constante », déclare Eric Wang, vice-président de l'IA chez Turnitin.
Des systèmes comme ChatGPT fonctionnent comme une version sophistiquée de la saisie semi-automatique , recherchant le mot le plus probable à taper ensuite. "C'est en fait pourquoi il se lit si naturellement : l'écriture par l'IA est le sous-ensemble le plus probable de l'écriture humaine ", dit-il.
Le détecteur de Turnitin "identifie quand l'écriture est trop cohérente en moyenne", explique Wang.
Le défi est que parfois un écrivain humain peut sembler constamment moyen.
Dans les rapports d'économie, de mathématiques et de laboratoire, les étudiants ont tendance à travailler pour définir des styles, ce qui signifie qu'ils sont plus susceptibles d'être confondus avec l'écriture de l'IA, explique Wang.C'est probablement pourquoi Turnitin a mal noté l'essai de Goetz, qui a dévié vers l'économie. ("Mes professeurs ont toujours été assez impressionnés par mon écriture", déclare Goetz.)
Wang dit que Turnitin s'est efforcé d'ajuster ses systèmes pour qu'ils se trompent et exigent une plus grande confiance avant de marquer une phrase comme IA. Je l'ai regardé se dérouler en temps réel : j'ai d'abord essayé l'essai de Goetz fin janvier, et le logiciel en a identifié beaucoup plus, environ 50 %, comme étant générés par l'IA. Turnitin a de nouveau analysé mes échantillons dans leur système à la fin du mois de mars, et cette fois, seuls 8 % de l'essai de Goetz ont été générés par l'IA.
Mais le resserrement de la tolérance du logiciel a eu un coût : lors du deuxième test de mes échantillons, Turnitin a raté davantage le typage réel de l'IA. « Nous mettons vraiment l'accent sur la sécurité des élèves », déclare Chechitelli.
Turnitin fonctionne mieux que les autres détecteurs d'IA publics que j'ai essayés. L'un publié en février par OpenAI, la société qui a inventé ChatGPT, s'est trompé sur huit de nos 16 échantillons de test. (Des tests indépendants d'autres détecteurs ont déclaré qu'ils "échouaient de manière spectaculaire" ).
Le scanner Turnitin est également confronté à d'autres limitations techniques importantes. Dans les six échantillons, c'était tout à fait correct, qui étaient tous clairement des travaux d'étudiants à 100 % ou produits par ChatGPT. Mais lorsque je l'ai testé avec des essais provenant de sources mixtes d'IA et humaines, il a souvent mal identifié des phrases individuelles ou a complètement raté la partie humaine. Et il n'a pas pu détecter le ChatGPT dans les documents que nous avons analysés avec Quillbot, un programme de paraphrase qui brouille les phrases.
De plus, le détecteur de Turnitin est peut-être déjà à la pointe de l'IA. Mes étudiants assistants ont créé des exemples avec ChatGPT, mais depuis qu'ils ont écrit, l'application a reçu une mise à jour logicielle appelée GPT-4 avec plus de capacités créatives et stylistiques. Google a également introduit un nouveau bot AI appelé Bard . Wang dit que les cibler est sur sa feuille de route.
Certains experts en IA disent que tout effort de détection met en place, au mieux, une course aux armements entre les tricheurs et les détecteurs . "Je ne pense pas qu'un détecteur soit fiable à long terme", déclare Jim Fan, un scientifique en intelligence artificielle chez Nvidia qui a travaillé chez OpenAI et Google.
"L'IA va s'améliorer et écrire de plus en plus comme les humains. Il est assez sûr de dire que toutes ces petites bizarreries des modèles de langage diminueront avec le temps », dit-il.

Est-ce une bonne idée de détecter l'IA ?
Étant donné le potentiel, même à 1 %, de se tromper, pourquoi jeter un détecteur d'IA dans un logiciel qui affectera tant d'étudiants ?
« Les enseignants veulent de la dissuasion », dit Chechitelli. Ils sont extrêmement préoccupés par l'IA et les aider à voir l'ampleur du vrai problème « fera baisser la température ».
Certains éducateurs craignent que cela n'augmente réellement la température.
Mitchel Sollenberger, prévôt associé pour l'éducation numérique à l'Université du Michigan-Dearborn, fait partie des responsables qui ont demandé à Turnitin de ne pas activer la détection de l'IA pour leur campus lors de son lancement initial.
Il a des inquiétudes spécifiques quant à la façon dont les faux positifs dans les quelque 20 000 articles d'étudiants que sa faculté examine sur Turnitin chaque semestre pourraient conduire à des enquêtes non fondées sur l'intégrité académique. « Les enseignants ne devraient pas avoir à être des experts dans un système logiciel tiers ; ils ne devraient pas nécessairement avoir à comprendre toutes les nuances », dit-il.
Ian Linkletter, qui travaille comme bibliothécaire pour les technologies émergentes et l'éducation ouverte au British Columbia Institute of Technology, affirme que la poussée des détecteurs d'IA lui rappelle le débat sur la surveillance des examens d'IA pendant la pandémie d'apprentissage virtuel.
"Je crains qu'ils ne le commercialisent comme un produit de précision, mais ils utilisent un langage douteux sur la façon dont il ne devrait pas être utilisé pour prendre des décisions", dit-il. "Ils travaillent à un rythme rapide, non pas parce qu'ils désespèrent de sortir le produit, mais parce qu'ils sont terrifiés à l'idée que leur produit existant devienne obsolète."
Dit Chechitelli: «Nous nous engageons à la transparence avec la communauté et avons été clairs sur la nécessité de continuer à itérer sur l'expérience utilisateur à mesure que nous apprenons davantage des étudiants et des éducateurs.
Deborah Green, directrice exécutive de l'UCISA au Royaume-Uni, me dit qu'elle comprend et apprécie les motivations de Turnitin pour le scanner. "Ce qu'il nous faut, c'est du temps pour nous convaincre de la précision, de la fiabilité et surtout de l'adéquation de tout outil de cette nature."
On ne sait pas comment l'idée d'un détecteur d'IA s'inscrit dans la direction de l'IA dans l'éducation. "Dans certaines disciplines universitaires, les outils d'IA sont déjà utilisés en classe et dans les évaluations", explique Green. "Le point de vue émergent dans de nombreuses universités britanniques est qu'avec l'IA déjà utilisée dans de nombreuses professions et domaines d'activité, les étudiants ont vraiment besoin de développer les capacités de réflexion critique et les compétences nécessaires pour bien utiliser et appliquer l'IA."
Il y a beaucoup plus de subtilité dans la façon dont les étudiants peuvent utiliser l'IA qu'un détecteur ne peut identifier aujourd'hui.
Mes tests d'étudiants comprenaient un échantillon d'un essai original d'étudiant écrit en espagnol, puis traduit en anglais avec ChatGPT. Dans ce cas, qu'est-ce qui doit compter : les idées ou les mots ? Et si l'élève avait des difficultés avec l'anglais comme langue seconde ? (Dans notre test, le détecteur de Turnitin a semblé manquer le typage de l'IA et n'a rien signalé.)
Serait-il plus ou moins acceptable qu'un étudiant demande à ChatGPT de décrire toutes les idées d'un devoir, puis tape les mots réels ?
« C'est la conversation la plus intéressante et la plus importante que vous aurez au cours des six prochains mois à un an, et c'est celle que nous avons eue avec des instructeurs », déclare Chechitelli.
"Nous croyons vraiment fermement que la visibilité, la transparence et l'intégrité sont les fondements des conversations à venir que nous voulons avoir sur la manière dont cette technologie sera utilisée", a déclaré Wang.
Pour Dell, l'enseignante californienne, le fondement de l'IA en classe est une conversation ouverte avec ses élèves.
Lorsque ChatGPT a commencé à faire la une des journaux en décembre, Dell a consacré une leçon entière avec la classe d'anglais de Goetz à ce que ChatGPT est et n'est pas fait. Il lui a demandé d'écrire un essai pour une instruction en anglais que ses élèves avaient déjà terminée, puis la classe a discuté de la performance de l'IA.
L'IA n'était pas très bonne.
"Une partie de convaincre les enfants de ne pas tricher consiste à leur faire comprendre que ce que nous leur demandons de faire est important pour eux", a déclaré Dell.
(c) 2023, Le Washington Post
Continuer à lire: