Une IA infiltre secrètement des sessions d'examens universitaires et obtient de meilleures notes que les étudiants

Les modèles de langage les plus avancés à ce jour, tels que GPT-4 d’OpenAI, deviennent si performants qu’il est désormais difficile de les distinguer à l’écrit. GPT-4 a notamment obtenu un score de 54 % (de réussite) durant un test récent où il devait se faire passer pour un humain au cours d’une conversation de cinq minutes (test de Turing). Cependant, l’évolution fulgurante de ces systèmes semble devenir très problématique pour le domaine éducatif. C’est ce que vient de prouver une expérience réalisée par des chercheurs de l’Université de Reading visant à infiltrer secrètement des examens universitaires pour les faire passer à une IA.

Au cours de la pandémie de COVID-19, de nombreuses universités à travers le monde sont passées d’examens supervisés sur place à des sessions d’examens à domicile non supervisés. Aujourd’hui, même s’il n’y a plus de confinement, cette pratique se poursuit, et c’est ce qui inquiète enseignants et chercheurs.

En effet, avec des outils d’IA toujours plus performants et accessibles, les étudiants peuvent facilement tricher en soumettant des travaux générés entièrement ou en grande partie par ces derniers. D’autant plus que la situation est devenue de plus en plus compliquée avec la baisse de fiabilité des outils de détection de textes réalisés par l’IA, devenus peu efficaces la plupart du temps.

Un test en situation réelle

Pour mesurer l’ampleur du problème pour le secteur éducatif, notamment au sein des universités et écoles supérieures, des chercheurs ont réalisé un « test d’infiltration ». Avec ses collègues, Peter Scarfe, professeur et chercheur à l’Université de Reading, s’est joué des correcteurs d’examens de l’établissement pour voir si ces derniers seraient capables de distinguer des réponses générées par une IA de celles rédigées par de vrais étudiants. Pour ce faire, ils ont participé à un examen de psychologie de leur établissement et ont fourni sous 33 faux noms d’étudiants des réponses intégralement produites par GPT-4 (le modèle de langage le plus performant d’OpenAI).

« De nombreuses institutions se sont éloignées des examens traditionnels pour rendre l’évaluation plus inclusive. Nos recherches montrent qu’il est d’une importance internationale de comprendre comment l’IA affectera l’intégrité des évaluations pédagogiques », a déclaré Scarfe. Cette étude aveugle, visant à mettre les éducateurs humains au défi de détecter le contenu généré par l’IA, est la plus vaste de ce type réalisée à ce jour.

Des résultats sans appel

Les résultats de l’étude, publiée dans la revue PLOS ONE le 26 juin dernier, sont sans appel. 94 % des réponses qui ont été générées par Chat GPT, soumises pour plusieurs modules de psychologie de premier cycle, n’ont pas été démasquées (comme provenant d’une IA). Plus surprenant encore, dans 83,4 % des cas, les soumissions d’IA ont reçu des notes plus élevées que les étudiants (sélectionnés au hasard). Cependant, Scarfe et son équipe n’ont pas pu exclure le fait que ces étudiants ont eux aussi pu utiliser l’IA pour répondre aux questions.

Voir aussi

Technologie

·3 min de lecture

Google dévoile Disco : l’IA qui transforme vos onglets Chrome en applications web sur mesure

Ces résultats mettent ainsi en exergue deux problèmes majeurs. D’un côté, il y a la forte probabilité que les étudiants utilisent l’IA pour tricher sans que cela soit relevé. D’un autre côté, ces derniers peuvent obtenir de meilleures notes que d’autres qui n’auraient pas triché. « La publication de ce test d’assurance qualité en situation réelle démontre très clairement que les outils d’IA générative librement et ouvertement disponibles permettent aux étudiants de tricher sans difficulté aux examens à domicile afin d’obtenir de meilleures notes, alors que cette tricherie est indétectable », a affirmé Karen Yeung, professeure à l’Université de Birmingham, spécialiste du droit, de l’éthique et de l’informatique.

Pour résoudre efficacement ces problèmes, Scarfe suggère simplement un retour aux examens supervisés en personne. En revanche, la professeure Elizabeth McCrum, vice-chancelière chargée de l’éducation et de l’expérience étudiante à l’Université de Reading, n’est pas de cet avis. Elle a déclaré : « Il est clair que l’IA aura un effet transformateur dans de nombreux aspects de nos vies, y compris la manière dont nous enseignons aux étudiants et évaluons leur apprentissage. Cependant, les solutions consistent notamment à s’éloigner des idées dépassées en matière d’évaluation et à s’orienter vers des idées plus adaptées aux compétences dont les étudiants auront besoin sur le lieu de travail, notamment en utilisant l’IA », conclut McCrum.

Source : PLOS ONE

Laisser un commentaire

Une IA infiltre secrètement des sessions d’examens universitaires et obtient de meilleures notes que les étudiants

Un test en situation réelle

Des résultats sans appel

Google dévoile Disco : l’IA qui transforme vos onglets Chrome en applications web sur mesure

Source : PLOS ONE

Google dévoile Disco : l’IA qui transforme vos onglets Chrome en applications web sur mesure

Un « supermicroscope » révèle en direct l’infiltration des virus de la grippe dans nos cellules

Un accord historique d’un milliard de dollars entre Disney et OpenAI ébranle l’industrie créative

Un filtre inspiré des poissons capture plus de 99 % des microplastiques des machines à laver

Des chercheurs mettent en lumière des liens génétiques communs entre 14 troubles psychiatriques

En huit ans, près de 62 000 manchots du Cap décimés par la raréfaction des sardines

Uranus et Neptune pourraient ne pas être des « géantes de glace » : le modèle établi remis en question

Des chercheurs mettent en lumière des liens génétiques communs entre 14 troubles psychiatriques

En huit ans, près de 62 000 manchots du Cap décimés par la raréfaction des sardines

Uranus et Neptune pourraient ne pas être des « géantes de glace » : le modèle établi remis en question