Les modèles d’IA continuent de s’améliorer à une vitesse fulgurante. Récemment, OpenAI a présenté « o1-preview », connu sous le nom de code de « Strawberry », un nouveau modèle qui a suscité beaucoup d’intérêt en raison de ses capacités de réflexion avancées. Face à l’arrivée de ces nouveaux modèles surpuissants, une coalition d’experts en technologies demande l’aide du public pour créer un questionnaire complexe dans le cadre d’un projet intitulé « Le dernier examen de l’humanité ». L’objectif est de permettre d’évaluer tout système d’IA pour déterminer s’il a atteint le niveau d’un expert humain, afin de guider et/ou réguler son développement.
Après le célèbre test de Turing, les examens d’entrée à l’université, les problèmes mathématiques complexes et l’expérience orchestrée par la Securities and Investments Commission (ASIC) sur la réalisation de tâches visant à résumer de longs documents, les tests actuels pour évaluer l’intelligence artificielle sont devenus majoritairement obsolètes. Les systèmes d’IA ont réussi à passer les différents examens auxquels ils ont été soumis, obtenant des scores de plus en plus élevés. Sans compter que l’arrivée récente sur le marché du modèle o1-preview d’OpenAI a d’autant plus bouleversé nos méthodes de test des capacités de l’IA. Ainsi, face à cette course effrénée, l’ONU exhorte à ce que le marché ne s’autorégule pas et les appels à réguler cette technologie se multiplient.
Dans cette optique, le Center for AI Safety (CAIS), une organisation à but non lucratif dédiée à la réduction des risques posés par l’intelligence artificielle, en collaboration avec la start-up Scale AI, a lancé un appel pour tenter de déjouer les systèmes d’IA les plus avancés. Selon le CAIS, « l’humanité doit maintenir une bonne compréhension des capacités des systèmes d’IA ». Dan Hendrycks, directeur du CAIS et conseiller de la start-up xAI d’Elon Musk, a expliqué que les tests existants sont devenus trop faciles et qu’il est désormais difficile de suivre correctement l’évolution de l’IA. « Ils sont désormais dépassés », a-t-il déclaré.
Hendrycks souligne également qu’il est difficile de savoir ce qui manque à l’IA pour atteindre le niveau d’un expert humain. Il a affirmé que le dernier modèle d’OpenAI a « détruit les critères de raisonnement les plus populaires ». C’est ainsi qu’est née cette initiative appelée « Le dernier examen de l’humanité ». Il s’agit d’un potentiel test ultime visant à identifier le point où l’IA a atteint un niveau d’expert. « Nous avons désespérément besoin de tests plus difficiles pour les modèles de niveau expert afin de mesurer les progrès rapides de l’IA », a déclaré Alexandr Wang, PDG de Scale AI.
IA : quand le public intervient
En 2021, Hendrycks a co-écrit deux articles contenant des propositions de tests d’IA. Le but était d’évaluer si les modèles testés pouvaient surpasser la compétence des étudiants de premier cycle. Les résultats ont ensuite permis d’apporter des améliorations aux performances des systèmes d’IA testés. Les modèles Claude d’Anthropic, par exemple, sont passés d’un score de 77 % à 89 % en l’espace d’un an seulement.
À l’époque, les tests interrogeaient les systèmes d’IA sur des sujets comme les mathématiques, l’histoire et les sciences sociales. Les IA soumises à ces épreuves donnaient des réponses presque aléatoires aux questions. Certains, dans le cadre du test ARC-AGI, avaient même du mal à évaluer la formulation de plans et la reconnaissance de formes abstraites. Voilà pourquoi « Le dernier examen de l’humanité » visera à se concentrer sur le raisonnement abstrait. Selon Hendrycks, ce critère constitue un indicateur plus précis de l’avancée de l’intelligence artificielle. Et afin de garantir l’intégrité du test, les deux institutions organisatrices prévoient de garder les critères confidentiels, afin d’empêcher les systèmes d’IA de s’appuyer sur des données déjà consultées.
Au total, l’examen sera composé de 1 000 questions participatives issues de différents domaines (à l’exception du domaine de l’armement, jugé trop dangereux pour être étudié par l’IA). Pour créer le questionnaire, CAIS et Scale AI font appel au public. Les candidats avec cinq années d’expérience dans un domaine technique ou disposant d’un doctorat sont donc invités à soumettre leurs questions en remplissant ce formulaire avant le 1er novembre.
Toutes les questions, conçues pour déconcerter les non-experts et auxquelles les systèmes d’IA n’arrivent pas à répondre pour l’instant, seront soumises à des examens par des pairs. Les 50 meilleurs candidats se verront offrir des crédits de co-auteur d’un article associé au test ainsi qu’une récompense allant jusqu’à 5 000 $.