Au Texas, les résultats des examens académiques seront évalués par un « moteur de notation automatisé » utilisant le traitement du langage naturel. Bien que les administrateurs hésitent à qualifier le système d’IA, ils admettent que la base repose sur la même technologie alimentant les grands modèles de langage (LLM). Son adoption vise à réduire de plus de moitié le besoin d’évaluateurs humains, permettant ainsi une économie de 15 à 20 millions de dollars — ce qui ne manque pas de susciter le scepticisme des enseignants et des parents.
Déployé par la Texas Education Agency (TEA), le nouveau moteur de notation automatisé est dédié à l’émulation des questions ouvertes sur la lecture, la grammaire, les sciences et les études sociales dans le cadre de l’examen STAAR, un examen d’État concernant le programme scolaire de base. L’intégration de questions ouvertes constitue notamment un grand changement dans le système scolaire local, dont les examens étaient auparavant essentiellement composés de questions à choix multiple. Cela offrirait une plus grande liberté d’expression aux élèves. Suite à la refonte, le test comprend désormais 6 à 7 fois plus de questions ouvertes.
Cependant, « nous voulions conserver autant de réponses construites ouvertes que possible, mais leur notation prend un temps considérable », a déclaré au Texas Tribune Jose Rios, directeur de l’évaluation des élèves à la TEA. L’automatisation permettrait un gain de temps considérable tout en réduisant les coûts en matière de prestataires humains. En effet, le recrutement de ces prestataires temporaires coûterait entre 15 et 20 millions de dollars par an à l’État. Avec le nouveau système de notation, le besoin d’évaluateurs humains serait réduit à moins de 2000, contre 6000 en 2023.
À noter que bien qu’il soit pratiquement basé sur le même principe, les administrateurs précisent que le système est différent des modèles d’IA standard. En effet, cette dernière utilise des algorithmes d’apprentissage progressif et peut évoluer et s’adapter avec le temps. En revanche, le moteur de notation hybride est un système fermé. Cette précision a probablement été donnée en raison de la méfiance du public envers l’utilisation abusive de l’IA.
Un nombre excessif de zéros malgré des réponses cohérentes…
Pour évaluer les réponses écrites des élèves, le système de notation se base sur le traitement du langage naturel, à l’instar des chabots alimentés par l’IA tels que ChatGPT. Pour ce faire, il a été formé sur une base de données rassemblant 3000 réponses qui ont été préalablement soumises à deux cycles de notation par des correcteurs humains. À partir de cet échantillon, le moteur « apprend » les caractéristiques permettant d’attribuer les notes correspondantes à chaque réponse. Il est programmé pour attribuer les mêmes scores qu’un évaluateur humain.
Lorsque les élèves rendront leurs copies d’examens, qui auront lieu cette semaine, le système effectuera d’abord une première correction pour la totalité des réponses. Dans un deuxième temps, un quart des réponses repassera au crible de correcteurs humains, afin d’éliminer les biais de notation que le système pourrait introduire.
Les réponses ré-évaluées incluent notamment celles que le moteur ne peut pas correctement évaluer. En d’autres termes, lorsque l’ordinateur a une « confiance faible » dans le score qu’il a attribué, ces réponses sont automatiquement réattribuées à un humain. Le même processus est enclenché si le système rencontre un type de réponse que sa programmation ne reconnaît pas, tel que celles utilisant beaucoup d’argot ou des termes dans une autre langue.
Cependant, les enseignants restent sceptiques quant à la capacité du système à évaluer correctement les réponses des élèves. Selon Hafedh Azaiez, surintendant de l’Independent School District de Round Rock, l’ordinateur pourrait passer à côté d’éléments essentiels que seul un correcteur humain peut relever, ce qui pourrait impacter les notes finales et décourager les élèves. Les enseignants craignent également que le système n’entrave la possibilité de ces derniers de s’exprimer et à fournir des réponses créatives.
Les essais préliminaires du système de notation hybride (en décembre 2023) semblent corroborer ces inquiétudes. Dans l’ensemble, il a été constaté que le nombre de zéros (0 points obtenus) augmente significativement malgré la cohérence des réponses. « Pour le moment, nous ne sommes pas en mesure de déterminer s’il y a un problème avec la question du test ou s’il s’agit du nouveau système de notation automatisé », a déclaré Lori Rapp, surintendante de l’Independent School District de Lewisville.
Toutefois, selon la TEA, la refonte de l’examen STAAR en 2023 impliquait que les élèves pouvaient ne pas recevoir de points avec des réponses manquant de structure, même si celles-ci étaient correctes. Afin de réduire les biais, l’agence a indiqué que les étudiants qui devront repasser le test obtiendront des scores différents de ceux qui le passent pour la première fois. « La différence de population est à l’origine de la différence de score, plutôt qu’à l’introduction d’une notation hybride », a expliqué un porte-parole.
En outre, contre un paiement de 50 dollars, les élèves ou leurs parents pourront demander une modification des scores s’ils estiment que le système d’évaluation s’est trompé. Néanmoins, les experts estiment que même si le moteur fonctionne correctement, il lui faudra tout de même un certain temps avant de gagner la confiance des enseignants et des parents.