Face à la croissance des publications scientifiques, le recrutement d’évaluateurs humains devient complexe. Une récente étude suggère que l’intelligence artificielle, notamment ChatGPT, pourrait offrir une solution complémentaire à l’évaluation humaine, en vue de l’accélérer (sans compromettre sa qualité ?). Des essais sur des documents soumis à des revues prestigieuses montrent une concordance notable entre les commentaires de ChatGPT et ceux des évaluateurs humains. Toutefois, l’adoption de cette technologie suscite des débats sur son rôle potentiel dans le processus de révision.
L’examen par les pairs est le pilier de la validation scientifique, garantissant la qualité et la pertinence des recherches publiées. Toutefois, face à l’afflux croissant de publications et à la complexité grandissante des sujets traités, le monde académique se trouve confronté à un défi de taille : comment assurer un examen rigoureux et rapide des travaux soumis ?
Dans ce contexte, une étude récente suggère que l’intelligence artificielle, en particulier le modèle ChatGPT basé sur l’architecture GPT-4, pourrait offrir une solution, suscitant à la fois espoir et scepticisme au sein de la communauté scientifique. L’étude, menée par l’Université de Stanford, est disponible sur la plateforme arXiv dans, justement, l’attente de révision par les pairs.
Des résultats prometteurs
L’étude a mis en lumière les capacités du modèle GPT-4 dans le domaine de l’évaluation scientifique. Ce test a porté sur un échantillon relativement large de plus de 3000 documents de recherche destinés à la renommée série de revues Nature, ainsi que sur 1700 articles présentés lors de la Conférence internationale sur les représentations d’apprentissage (ICLR), un événement majeur dans le domaine de l’apprentissage automatique.
Les données recueillies ont révélé une synchronisation remarquable entre les retours de ChatGPT et les évaluations des experts humains. Plus précisément, dans le cadre des articles destinés à Nature, ChatGPT a émis des observations similaires à celles d’au moins un évaluateur humain dans plus de la moitié des cas. Cette performance s’est avérée encore plus notable pour les articles de l’ICLR, où la concordance a grimpé à 77%. Ces chiffres témoignent non seulement de la pertinence des commentaires générés par l’IA, mais aussi de sa capacité à simuler le processus d’évaluation humaine dans un contexte académique exigeant.
Des avantages indéniables
Contrairement à d’autres outils, GPT-4 permet d’analyser efficacement des documents (même scientifiques) dans leur forme brute, sans prétraitement. L’accent a été mis sur quatre piliers essentiels du processus de révision, garantissant une évaluation complète et pertinente. Ces piliers sont : la détection de la nouveauté du travail, l’identification des éléments justifiant son acceptation, la reconnaissance des motifs pouvant conduire à son rejet et enfin, la proposition de recommandations pour améliorer le document.
Ainsi, les chercheurs de la présente étude ont utilisé ChatGPT pour générer des commentaires sur plusieurs centaines d’articles qui n’avaient pas encore été évalués par les pairs, mais qui avaient récemment été téléchargés sur des serveurs de préimpression. Zou et ses collègues ont interrogé 308 auteurs — tous chercheurs dans les domaines de l’IA et de la biologie computationnelle — pour connaître leurs impressions sur les critiques.
Une majorité écrasante, soit plus de 82%, a exprimé une satisfaction notable vis-à-vis des commentaires fournis par ChatGPT. Ces chercheurs ont estimé que les retours de l’IA étaient non seulement pertinents, mais aussi supérieurs en qualité à certains des commentaires qu’ils avaient reçus de la part d’évaluateurs humains dans leurs expériences précédentes.
Des défis à relever
L’avènement de l’intelligence artificielle dans le domaine de l’évaluation scientifique a suscité un vif intérêt en raison de ses performances impressionnantes. Toutefois, il convient de tempérer cet enthousiasme par une prise de conscience des limites inhérentes à cette technologie. En effet, si l’IA, à travers des modèles comme GPT, démontre une capacité à analyser et à fournir des retours pertinents sur des documents écrits, elle ne possède pas la profondeur de compréhension nécessaire pour aborder des aspects techniques spécifiques des recherches évaluées, ni l’intuition et l’expertise spécifique qu’un évaluateur humain peut apporter. Il existe de fait un déficit en matière de précision technique dans les commentaires de ChatGPT.
C’est pourquoi, malgré cette approbation générale dans son étude, Zou, chercheur principal, met également en lumière cette nuance dans sa publication. Il reconnaît la valeur ajoutée de ChatGPT, notamment dans la phase initiale d’évaluation, où l’outil peut rapidement identifier des points d’amélioration ou des éléments saillants. Cependant, il insiste sur l’importance de ne pas négliger le rôle des évaluateurs humains. Ces derniers, forts de leur expérience et de leur formation, apportent une analyse contextualisée et souvent enrichie par des années de recherche dans des domaines spécifiques.
Cette observation suggère que, bien que prometteuse, l’intégration de l’IA dans le processus d’évaluation nécessite encore des ajustements pour répondre pleinement aux attentes des chercheurs. L’IA doit être envisagée comme un complément et non comme un substitut à l’expertise humaine. La synergie entre ces deux formes d’évaluation pourrait alors conduire à un processus de révision plus robuste et efficace.