Au fil des ans, les modèles d’intelligence artificielle ont été soumis à une série de tests standardisés pour mesurer leurs performances. Leur évolution spectaculaire a incité les chercheurs à concevoir des épreuves toujours plus complexes. Aujourd’hui, les modèles d’entreprises comme OpenAI, Google et Anthropic obtiennent des scores impressionnants dans des évaluations de niveau doctoral. En septembre dernier, des experts ont sollicité le public pour élaborer un test ultime baptisé « Le dernier examen de l’humanité », destiné à déterminer si l’IA peut rivaliser avec les capacités d’analyse d’experts.
Sur les six modèles évalués lors de cet exercice, seul o1, développé par OpenAI, a obtenu le meilleur résultat avec un score modeste de 8,3 % de réussite. Malgré cet échec relatif, les chercheurs anticipent que ces systèmes atteindront ou dépasseront 50 % de réussite d’ici la fin de l’année.
Dan Hendrycks, directeur du Center for AI Safety (CAIS) et conseiller de xAI d’Elon Musk, s’est imposé comme l’un des spécialistes les plus influents dans le domaine de la sécurité de l’intelligence artificielle. Il y a quatre ans, il coécrivait deux articles majeurs : « Benchmarking Safe AI », consacré à l’évaluation de la sécurité des systèmes d’IA, et « Aligning AI with Human Intent », qui explorait les moyens d’aligner les objectifs des modèles avec les intentions humaines. Ces travaux ont aidé les géants du secteur à améliorer leurs modèles, optimisant à la fois leur sécurité et leurs performances.
Parallèlement, Hendrycks a joué un rôle clé dans la création du test Massive Multitask Language Understanding (MMLU), destiné à évaluer la compréhension linguistique à grande échelle. Inspiré par une conversation avec Elon Musk, il a entrepris de concevoir des épreuves toujours plus exigeantes. En complément des travaux de Hendrycks, d’autres tests ont vu le jour, tels que FrontierMath d’Epoch AI ou encore ARC-AGI, développé par François Chollet. Toutefois, les performances des modèles évalués sont restées limitées. Lors du test ARC-AGI, par exemple, les modèles ont échoué de manière flagrante, ne produisant que des réponses aléatoires.
La genèse du « dernier examen de l’humanité »
Dans cette perspective, Hendrycks a imaginé l’Humanity’s Last Exam (soit « Le dernier examen de l’humanité »), une épreuve axée sur des raisonnements abstraits et complexes. En septembre 2024, le CAIS, en partenariat avec Scale AI, a lancé un appel mondial à contributions pour concevoir les questions de ce test inédit.
Les organisateurs ont ciblé divers types d’experts : professionnels avec cinq ans d’expérience dans un domaine technique, doctorants, enseignants-chercheurs et mathématiciens primés. Cette initiative a permis de rassembler 3 000 questions, sous forme de QCM et de réponses courtes, couvrant un large éventail de disciplines, de la philosophie analytique à l’ingénierie aérospatiale, en passant par l’anatomie animale.
Un exemple illustre bien la complexité des épreuves : une question citée par Kevin Roose dans le New York Times est la suivante : « Les colibris de la famille des Apodiformes possèdent un os ovale apparié bilatéralement, un sésamoïde encastré dans la partie caudolatérale de l’aponévrose croisée élargie d’insertion du muscle depressor caudae. Combien de tendons appariés sont soutenus par cet os sésamoïde ? Répondez par un nombre ». Selon Hendrycks, l’objectif est clair : « Nous cherchons à évaluer dans quelle mesure l’IA peut automatiser des tâches intellectuelles véritablement complexes ».
Pour concevoir ces questions, les organisateurs ont procédé à un processus de sélection rigoureux. Dans une première phase, les questions ont été soumises aux modèles d’IA les plus performants. Si ces derniers échouaient ou répondaient au hasard, des évaluateurs humains intervenaient pour valider leur pertinence. Les participants ayant proposé les questions les plus difficiles recevaient une récompense financière, allant de 500 à 5 000 dollars par question, ainsi qu’une mention de co-auteur dans les publications associées au test.
Des résultats décevants, mais prometteurs
Une fois les 3 000 questions finalisées, six modèles – parmi lesquels GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, o1 et DeepSeek-R1 – ont été soumis au test. Les résultats ont été jugés décevants. Le modèle o1 d’OpenAI a enregistré le meilleur score, avec seulement 8,3 % de réussite.
Cependant, Hendrycks reste optimiste : « Nous pourrions imaginer une version améliorée du test, où l’IA serait mise à l’épreuve avec des questions dont nous ignorons encore les réponses, afin de vérifier si elle peut nous aider à résoudre des problèmes inédits ».
Summer Yue, directrice de recherche chez Scale AI et coorganisatrice de l’examen, partage cet espoir. Kevin Zhou, chercheur postdoctoral en physique théorique à l’Université de Californie à Berkeley, a lui aussi participé en soumettant trois questions. Celles-ci, selon lui, étaient équivalentes au niveau d’un examen de troisième cycle universitaire. Pour autant, Zhou met en garde contre une surestimation des capacités des IA : « Même un modèle capable de répondre à ces questions ne serait pas forcément prêt à contribuer à la recherche scientifique, qui, par essence, est bien moins structurée ».