Une IA open source défie les experts humains dans la revue de littérature scientifique

Elle surpasse les modèles classiques pour la synthèse de publications scientifiques.

ia-open-source-scientifique-couv
| Pixabay
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

Des chercheurs ont développé une IA open source surpassant les modèles classiques pour la synthèse de grands volumes de publications scientifiques et citant les références correctes aussi bien, voire mieux, que les experts humain. Baptisée OpenScholar, elle s’appuie directement sur la littérature scientifique pour générer ses réponses, minimisant ainsi le risque « d’hallucinations ». Le modèle pourrait ainsi se présenter comme un outil potentiellement plus performant et plus accessible dédié aux étudiants et aux scientifiques pour la revue de littérature.

La synthèse et la veille de la littérature scientifique sont essentielles à la recherche, notamment pour l’identification de nouvelles pistes, l’affinage des méthodologies et pour étayer les résultats en réunissant des preuves. L’augmentation rapide du nombre de publications rend cependant ces processus de plus en plus difficiles pour les chercheurs.

Les grands modèles de langage (LLM) peuvent être d’une grande aide grâce à leur capacité à synthétiser de grands volumes de données. Cependant, ils sont fréquemment sujets aux hallucinations et leurs données de préentraînement ne sont pas spécifiquement basées sur la littérature scientifique, ce qui peut introduire des erreurs dans les réponses.

En effet, les LLM sont conçus pour établir des liens entre les mots et leurs données d’entraînement qui incluent des sources non scientifiques. Ils génèrent ensuite des réponses en se basant sur les associations les plus probables même si celles-ci ne sont pas toujours pertinentes ou à jour. Autrement dit, les références qu’ils citent ne sont pas toujours pertinentes ou existantes.

Les modèles de langage enrichis par la recherche sont proposés pour surmonter ces limites, mais la plupart reposent sur des interfaces de programmation qui ne sont pas open source et ne disposent pas de bases de données de recherche ouvertes adaptées aux domaines scientifiques.

OpenScholar propose de surmonter la plupart de ces limites tout en étant entièrement open source. Les chercheurs peuvent l’essayer librement à l’aide d’une version de démonstration en ligne ou l’intégrer dans leurs propres systèmes en utilisant la méthodologie décrite dans l’article publiée récemment dans la revue Nature pour améliorer ses compétences d’analyse de la littérature.

Une conception limitant les hallucinations

Plutôt que de s’appuyer sur une vaste quantité de données issues de sources diversifiées, OpenScholar consulte spécifiquement une base de données de 45 millions d’articles scientifiques en libre accès, optimisée pour les recherches dans des domaines tels que la biomédecine, l’informatique et la physique.

Le modèle identifie des articles scientifiques pertinents dans la base de données lorsqu’un utilisateur pose une question, les classe par ordre de pertinence et génère une réponse basée uniquement sur les plus pertinents. Ce processus optimisé spécifiquement pour la littérature scientifique permettrait de limiter les hallucinations.

Les questions sont par exemple formulées comme suit : « Comment refroidir le mouvement du centre de masse de nanoparticules en lévitation ? » Entraîné sur des exemples de questions et de réponses, l’IA affine systématiquement ses propres réponses. « Nous avons conçu un processus efficace où le modèle génère une réponse une première fois, puis continue de s’améliorer si nécessaire », explique à la revue Nature Akari Asai, chercheur en IA à l’Université Carnegie Mellon de Pittsburgh, en Pennsylvanie, et co-auteur de l’étude.

Un outil qui surpasse les LLM existants

L’équipe de développement a testé OpenScholar en comparant sa capacité à répondre à des questions scientifiques à celle d’autres LLM populaires. Les questions ont été conçues par des experts de niveau doctorat et incluaient des domaines tels que l’informatique, la physique, les neurosciences et la biomédecine.

OpenScholar a répondu correctement à 51 % des questions sur l’informatique, contre 45 % pour GPT-4o. Elle a également surpassé le modèle Llama de Meta, ainsi que les outils concurrents tels que PaperQA2 de FutureHouse, lors d’évaluations de la précision des citations et des faits. Les évaluateurs humains, comprenant 12 doctorants et postdoctorants, ont indiqué une préférence pour les réponses d’OpenScholar à celles d’autres experts dans 51 % des cas, un chiffre qui a atteint 70 % lorsqu’il était comparé à GPT-4o.

Toutefois, « il est difficile de définir ce qui est “meilleur” car les avis divergent énormément, même au sein d’une même discipline, quant à la citation optimale pour étayer un argument », précise dans un article publié dans la revue Science Jevin West, data scientist à l’Université de Washington et qui n’a pas participé à l’étude. « Des recherches supplémentaires seront donc nécessaires », ajoute-t-il.

Une autre limite de l’outil est qu’il ne permet pas d’accéder aux articles payants, ce qui pourrait le rendre moins utile pour certains domaines tels que l’ingénierie ou les sciences sociales, où les prépublications en libre accès sont rares. Les chercheurs de l’étude prévoient d’améliorer le modèle en le rendant plus flexible et en lui permettant d’accéder aux articles auxquels les utilisateurs ont accès via un abonnement ou qu’ils ont téléchargés localement.

Source : Nature
Laisser un commentaire