Si l’IA se montre créative dans la rédaction de scénarios, elle est moins performante quand il s’agit d’exécuter des tâches complexes qui requièrent une analyse critique. Récemment, un essai gouvernemental australien a montré que les « petits » modèles de langage, en étudiant les capacités de l’un d’entre eux à résumer de longs documents, sont globalement moins performants que les employés pour résumer des informations. En les comparant aux résumés réalisés par des employés humains, les résultats révèlent que l’IA est loin d’être performante sous tous les critères évalués.
En juin dernier, Mira Murati, CTO d’OpenAI, a déclaré à la Dartmouth University que les métiers créatifs pourraient bientôt disparaître face à l’évolution fulgurante de l’IA. Une déclaration qui vient s’ajouter aux nombreux débats sur l’intégration de l’intelligence artificielle dans le secteur professionnel. En effet, l’IA a dépassé l’homme dans de nombreux domaines. Pour ne citer que quelques exemples : génération de code informatique, génération d’images, résolution de problèmes mathématiques, compréhension et analyse du langage humain. Le modèle GPT-4 a même réussi à se faire passer pour un humain et a obtenu un score de 54 % dans le cadre d’une étude de cas du test de Turing.
Cette tendance soulève de nombreuses questions et inquiétudes pour l’avenir du travail. Pour cette raison, la Securities and Investments Commission (ASIC) australienne a décidé d’analyser l’efficacité de l’IA dans la réalisation de tâches complexes. En janvier et février, Amazon a réalisé un test pour le compte d’ASIC. Les résultats ont ensuite été publiés au mois de mai, en réponse à une enquête menée par le Sénat concernant l’adoption de l‘intelligence artificielle.
Au cours de l’étude, Amazon a évalué la capacité d’un petit LLM à réaliser le résumé d’un « échantillon de soumissions publiques faites à une commission d’enquête parlementaire mixte externe portant sur les cabinets d’audit et de conseil ». Le modèle open source Llama-2-70B de Meta a été utilisé. L’objectif était de voir dans quelle mesure l’IA pouvait répondre aux besoins de l’ASIC qui définit un bon résumé comme étant une synthèse comprenant : toute mention de l’ASIC, différentes recommandations visant à éviter les conflits d’intérêts ainsi que des appels à une réglementation souple. L’ASIC s’attendait également à obtenir des références aux numéros de page avec un excellent contexte pour explication.
Dix membres du personnel de l’ASIC avec différents niveaux d’ancienneté ont également réalisé un résumé de leur côté après avoir reçu des consignes similaires. Le processus consistait par la suite à effectuer une évaluation comparative des résumés générés par l’IA avec ceux réalisés par les membres de l’ASIC. Ensuite, l’ASIC a fait appel à cinq représentants commerciaux pour réaliser une série d’évaluations à l’aveugle des résumés soumis. Ces derniers ont établi cinq critères pour noter les résumés dont la cohérence, la longueur et la concentration sur les références ASIC étaient en tête de liste.
Un manque flagrant de nuances et d’analyse
À la fin de l’évaluation, trois des examinateurs ont déclaré qu’ils soupçonnaient examiner des contenus générés par l’IA. D’ailleurs, les résultats du test ont été sans appel : les résumés d’IA ont été jugés plus faibles dans tous les critères évalués avec un score de 47 % contre 81 % pour ceux réalisés par les employés de l’ASIC. « Les résumés étaient assez génériques, et la nuance sur la façon dont l’ASIC avait été référencé n’apparaissait pas dans le résumé généré par l’IA », a déclaré Graham Jefferson, responsable de la transformation numérique de l’ASIC.
En effet, les évaluateurs ont expliqué aux auteurs de l’étude que les résumés soumis par l’IA manquaient non seulement de nuance, mais aussi de contexte. Ces deux éléments sont essentiels dans la compréhension d’un document et dans sa fluidité. Un des évaluateurs a d’ailleurs qualifié un résumé IA comme « verbeux et inutile, se contentant souvent de reformuler ce qui était demandé ».
Les réviseurs ont également précisé que l’IA a inclus des informations erronées et parfois impertinentes dans les résumés. Ils estiment ainsi que l’utilisation de l’IA générative dans la réalisation d’une tâche complexe telle qu’un résumé de document était contre-productif. Les nombreuses lacunes de l’intelligence artificielle dans ce domaine requièrent une intervention humaine non seulement pour vérifier la cohérence des informations, mais aussi pour peaufiner l’intégralité du contenu afin que le rendu soit plus fluide. Cela implique ainsi une charge de travail significative alors qu’au départ, l’IA est censé l’alléger.
Bien que les résultats aient été concluants au premier abord, l’ASIC a souligné que l’étude présente un certain nombre de limites qui rendent difficile le fait de tirer une vraie conclusion sur les capacités de synthèse des LLM. En effet, Llama-2-70B, utilisé pour l’étude, n’est ni le modèle le plus récent ni le plus performant du marché. En effet, ce modèle est largement surpassé par GPT-4o (même la version -mini), Claude 3.5 Sonnet ou encore Llama-3.1-405B. En outre, d’après les auteurs, « les résultats ne reflètent pas nécessairement les performances d’autres modèles ». « Les modèles plus grands, dotés de fenêtres contextuelles plus grandes et de meilleures stratégies d’intégration, peuvent avoir plus de succès », concluent-ils.