Des milliers d’évaluateurs remplacés par l’IA pour la correction des examens académiques au Texas

Au Texas, les résultats des examens académiques seront évalués par un « moteur de notation automatisé » utilisant le traitement du langage naturel. Bien que les administrateurs hésitent à qualifier le système d’IA, ils admettent que la base repose sur la même technologie alimentant les grands modèles de langage (LLM). Son adoption vise à réduire de plus de moitié le besoin d’évaluateurs humains, permettant ainsi une économie de 15 à 20 millions de dollars — ce qui ne manque pas de susciter le scepticisme des enseignants et des parents.

Déployé par la Texas Education Agency (TEA), le nouveau moteur de notation automatisé est dédié à l’émulation des questions ouvertes sur la lecture, la grammaire, les sciences et les études sociales dans le cadre de l’examen STAAR, un examen d’État concernant le programme scolaire de base. L’intégration de questions ouvertes constitue notamment un grand changement dans le système scolaire local, dont les examens étaient auparavant essentiellement composés de questions à choix multiple. Cela offrirait une plus grande liberté d’expression aux élèves. Suite à la refonte, le test comprend désormais 6 à 7 fois plus de questions ouvertes.

Cependant, « nous voulions conserver autant de réponses construites ouvertes que possible, mais leur notation prend un temps considérable », a déclaré au Texas Tribune Jose Rios, directeur de l’évaluation des élèves à la TEA. L’automatisation permettrait un gain de temps considérable tout en réduisant les coûts en matière de prestataires humains. En effet, le recrutement de ces prestataires temporaires coûterait entre 15 et 20 millions de dollars par an à l’État. Avec le nouveau système de notation, le besoin d’évaluateurs humains serait réduit à moins de 2000, contre 6000 en 2023.

À noter que bien qu’il soit pratiquement basé sur le même principe, les administrateurs précisent que le système est différent des modèles d’IA standard. En effet, cette dernière utilise des algorithmes d’apprentissage progressif et peut évoluer et s’adapter avec le temps. En revanche, le moteur de notation hybride est un système fermé. Cette précision a probablement été donnée en raison de la méfiance du public envers l’utilisation abusive de l’IA.

Un nombre excessif de zéros malgré des réponses cohérentes…

Pour évaluer les réponses écrites des élèves, le système de notation se base sur le traitement du langage naturel, à l’instar des chabots alimentés par l’IA tels que ChatGPT. Pour ce faire, il a été formé sur une base de données rassemblant 3000 réponses qui ont été préalablement soumises à deux cycles de notation par des correcteurs humains. À partir de cet échantillon, le moteur « apprend » les caractéristiques permettant d’attribuer les notes correspondantes à chaque réponse. Il est programmé pour attribuer les mêmes scores qu’un évaluateur humain.

Lorsque les élèves rendront leurs copies d’examens, qui auront lieu cette semaine, le système effectuera d’abord une première correction pour la totalité des réponses. Dans un deuxième temps, un quart des réponses repassera au crible de correcteurs humains, afin d’éliminer les biais de notation que le système pourrait introduire.

Les réponses ré-évaluées incluent notamment celles que le moteur ne peut pas correctement évaluer. En d’autres termes, lorsque l’ordinateur a une « confiance faible » dans le score qu’il a attribué, ces réponses sont automatiquement réattribuées à un humain. Le même processus est enclenché si le système rencontre un type de réponse que sa programmation ne reconnaît pas, tel que celles utilisant beaucoup d’argot ou des termes dans une autre langue.

Cependant, les enseignants restent sceptiques quant à la capacité du système à évaluer correctement les réponses des élèves. Selon Hafedh Azaiez, surintendant de l’Independent School District de Round Rock, l’ordinateur pourrait passer à côté d’éléments essentiels que seul un correcteur humain peut relever, ce qui pourrait impacter les notes finales et décourager les élèves. Les enseignants craignent également que le système n’entrave la possibilité de ces derniers de s’exprimer et à fournir des réponses créatives.

Voir aussi

Médecine & Bio Société & Comportement

·3 min de lecture

Les femmes hospitalisées ont de meilleures chances de survie si elles sont traitées par une femme, selon une étude

Les essais préliminaires du système de notation hybride (en décembre 2023) semblent corroborer ces inquiétudes. Dans l’ensemble, il a été constaté que le nombre de zéros (0 points obtenus) augmente significativement malgré la cohérence des réponses. « Pour le moment, nous ne sommes pas en mesure de déterminer s’il y a un problème avec la question du test ou s’il s’agit du nouveau système de notation automatisé », a déclaré Lori Rapp, surintendante de l’Independent School District de Lewisville.

Toutefois, selon la TEA, la refonte de l’examen STAAR en 2023 impliquait que les élèves pouvaient ne pas recevoir de points avec des réponses manquant de structure, même si celles-ci étaient correctes. Afin de réduire les biais, l’agence a indiqué que les étudiants qui devront repasser le test obtiendront des scores différents de ceux qui le passent pour la première fois. « La différence de population est à l’origine de la différence de score, plutôt qu’à l’introduction d’une notation hybride », a expliqué un porte-parole.

En outre, contre un paiement de 50 dollars, les élèves ou leurs parents pourront demander une modification des scores s’ils estiment que le système d’évaluation s’est trompé. Néanmoins, les experts estiment que même si le moteur fonctionne correctement, il lui faudra tout de même un certain temps avant de gagner la confiance des enseignants et des parents.

Laisser un commentaire

Un système informatique fonctionnant comme un cerveau (avec de l’eau et des ions) testé pour la première fois

Des forces quantiques utilisées pour la première fois pour assembler automatiquement un dispositif microscopique

2023 enregistre une mortalité catastrophique chez les manchots empereurs en raison de la fonte record de la banquise

Les six étapes clés pour se spécialiser en IA et Big Data

Pansement : conseils d’application et de changement pour optimiser la cicatrisation

Utérus artificiels : quand la fiction frôle la réalité… Quels sont les enjeux pour l’avenir de la natalité humaine ?

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

Un moteur à distorsion (Warp drive) qui ne viole pas les lois de la physique

Affaire Boeing : un lanceur d’alerte affirme que les fuselages des 787 sont mal assemblés

Que se passe-t-il chez Boeing ? Décryptage des causes et impacts des récents accidents

Des milliardaires construisent des bunkers entièrement autonomes : prévision de l’apocalypse ou féodalisme ?

Un système informatique fonctionnant comme un cerveau (avec de l’eau et des ions) testé pour la première fois

Fusion nucléaire : une récente expérience surmonte deux obstacles opérationnels majeurs

En Chine, un immense gouffre a conduit à la découverte d’une merveille géologique de « classe mondiale »

Des atomes se comportant comme des ondes quantiques capturés pour la première fois en haute résolution

Des milliers d’évaluateurs remplacés par l’IA pour la correction des examens académiques au Texas

Un nombre excessif de zéros malgré des réponses cohérentes…

Les femmes hospitalisées ont de meilleures chances de survie si elles sont traitées par une femme, selon une étude

Un système informatique fonctionnant comme un cerveau (avec de l’eau et des ions) testé pour la première fois

Apple publie plusieurs modèles d’IA open source exécutables sur smartphone

Une nouvelle méthode permet de produire des diamants sans nécessiter de pression extrême

Fusion nucléaire : une récente expérience surmonte deux obstacles opérationnels majeurs

Un système informatique fonctionnant comme un cerveau (avec de l’eau et des ions) testé pour la première fois

Fusion nucléaire : une récente expérience surmonte deux obstacles opérationnels majeurs

En Chine, un immense gouffre a conduit à la découverte d’une merveille géologique de « classe mondiale »

Un système informatique fonctionnant comme un cerveau (avec de l’eau et des ions) testé pour la première fois

Des forces quantiques utilisées pour la première fois pour assembler automatiquement un dispositif microscopique

2023 enregistre une mortalité catastrophique chez les manchots empereurs en raison de la fonte record de la banquise