Les modèles de langage les plus avancés à ce jour, tels
que GPT-4 d’OpenAI, deviennent si performants qu’il est désormais
difficile de les distinguer à l’écrit. GPT-4 a notamment obtenu un
score de 54 % (de réussite) durant un test récent où il devait se
faire passer pour un humain au cours d’une conversation de cinq
minutes (test de Turing). Cependant, l’évolution fulgurante de ces
systèmes semble devenir très problématique pour le domaine
éducatif. C’est ce que vient de prouver une expérience réalisée par
des chercheurs de l’Université de Reading visant à infiltrer
secrètement des examens universitaires pour les faire passer à une
IA.
Au cours de la pandémie de COVID-19, de nombreuses universités à travers le monde sont passées d’examens supervisés sur place à des sessions d’examens à domicile non supervisés. Aujourd’hui, même s’il n’y a plus de confinement, cette pratique se poursuit, et c’est ce qui inquiète enseignants et chercheurs.
En effet, avec des outils d’IA toujours plus performants et accessibles, les étudiants peuvent facilement tricher en soumettant des travaux générés entièrement ou en grande partie par ces derniers. D’autant plus que la situation est devenue de plus en plus compliquée avec la baisse de fiabilité des outils de détection de textes réalisés par l’IA, devenus peu efficaces la plupart du temps.
Un test en situation réelle
Pour mesurer l’ampleur du problème pour le secteur éducatif, notamment au sein des universités et écoles supérieures, des chercheurs ont réalisé un « test d’infiltration ». Avec ses collègues, Peter Scarfe, professeur et chercheur à l’Université de Reading, s’est joué des correcteurs d’examens de l’établissement pour voir si ces derniers seraient capables de distinguer des réponses générées par une IA de celles rédigées par de vrais étudiants. Pour ce faire, ils ont participé à un examen de psychologie de leur établissement et ont fourni sous 33 faux noms d’étudiants des réponses intégralement produites par GPT-4 (le modèle de langage le plus performant d’OpenAI).
« De nombreuses institutions se sont éloignées des examens traditionnels pour rendre l’évaluation plus inclusive. Nos recherches montrent qu’il est d’une importance internationale de comprendre comment l’IA affectera l’intégrité des évaluations pédagogiques », a déclaré Scarfe. Cette étude aveugle, visant à mettre les éducateurs humains au défi de détecter le contenu généré par l’IA, est la plus vaste de ce type réalisée à ce jour.
Des résultats sans appel
Les résultats de l’étude, publiée dans la revue PLOS ONE le 26 juin dernier, sont sans appel. 94 % des réponses qui ont été générées par Chat GPT, soumises pour plusieurs modules de psychologie de premier cycle, n’ont pas été démasquées (comme provenant d’une IA). Plus surprenant encore, dans 83,4 % des cas, les soumissions d’IA ont reçu des notes plus élevées que les étudiants (sélectionnés au hasard). Cependant, Scarfe et son équipe n’ont pas pu exclure le fait que ces étudiants ont eux aussi pu utiliser l’IA pour répondre aux questions.
Ces résultats mettent ainsi en exergue deux problèmes majeurs. D’un côté, il y a la forte probabilité que les étudiants utilisent l’IA pour tricher sans que cela soit relevé. D’un autre côté, ces derniers peuvent obtenir de meilleures notes que d’autres qui n’auraient pas triché. « La publication de ce test d’assurance qualité en situation réelle démontre très clairement que les outils d’IA générative librement et ouvertement disponibles permettent aux étudiants de tricher sans difficulté aux examens à domicile afin d’obtenir de meilleures notes, alors que cette tricherie est indétectable », a affirmé Karen Yeung, professeure à l’Université de Birmingham, spécialiste du droit, de l’éthique et de l’informatique.
Pour résoudre efficacement ces problèmes, Scarfe suggère simplement un retour aux examens supervisés en personne. En revanche, la professeure Elizabeth McCrum, vice-chancelière chargée de l’éducation et de l’expérience étudiante à l’Université de Reading, n’est pas de cet avis. Elle a déclaré : « Il est clair que l’IA aura un effet transformateur dans de nombreux aspects de nos vies, y compris la manière dont nous enseignons aux étudiants et évaluons leur apprentissage. Cependant, les solutions consistent notamment à s’éloigner des idées dépassées en matière d’évaluation et à s’orienter vers des idées plus adaptées aux compétences dont les étudiants auront besoin sur le lieu de travail, notamment en utilisant l’IA », conclut McCrum.