Agents IA : Hugging Face reproduit Deep Research d’OpenAI en 24 heures… et en open source

Baptisé Open Deep Research, il est presque aussi performant que le modèle d'OpenAI.

open ai reproduit agent ia
| Unsplash
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

Quelques jours à peine après le lancement de Deep Research, le nouvel agent IA d’OpenAI, les ingénieurs de Hugging Face ont développé Open Deep Research, une version open source, en seulement 24 heures. Le nouvel agent IA a obtenu un score de 55,15 % dans un test standard de précision, contre 67,36 % pour le modèle d’OpenAI. Ce genre de prouesse remet de plus en plus en question la rentabilité des grands modèles propriétaires, qui nécessitent des ressources considérables.

La semaine dernière, OpenAI a lancé ses premiers agents IA autonomes : Operator et Deep Research. S’appuyant sur son modèle de raisonnement o3 (spécialisé dans la navigation Web et l’analyse de données), ce dernier vise à égaler, voire surpasser, les capacités d’un analyste humain en automatisant le processus de collecte et d’analyse de données. Il peut produire en quelques dizaines de minutes des rapports d’analyse détaillés qui demanderaient plusieurs heures de travail à un humain.

Cependant, « alors que de puissants LLM sont désormais disponibles gratuitement en open source, OpenAI n’a pas révélé grand-chose sur le cadre agentique sous-jacent à Deep Research », ont écrit les experts de Hugging Face dans un communiqué. « Nous avons donc décidé de nous lancer dans une mission de 24 heures pour reproduire leurs résultats et ouvrir le cadre nécessaire au fur et à mesure ! ».

Adapté aux modèles d’IA à pondération ouverte

Similaire à la fois à Deep Research d’OpenAI et à l’agent IA (portant le même nom) de Google basé sur Gemini, Open Deep Research ajoute un « cadre agentique » à des modèles d’IA existants. Ce cadre lui permet d’effectuer des tâches en plusieurs étapes, l’aspect clé différenciant les agents IA des modèles classiques. Ces tâches incluent par exemple la collecte d’informations puis la génération d’un rapport au fur et à mesure que ces informations sont mises à jour.

En effet, les agents IA sont fondamentalement basés sur des modèles d’IA existants. La différence est que la structure agentique maintient l’ensemble dans un fonctionnement synergique et permet d’effectuer des tâches complexes de manière plus autonome. D’autre part, Open Deep Research peut également être adapté aux modèles d’IA à pondération ouverte (dont les paramètres peuvent être ajustés ou modifiés).

Plus précisément, l’équipe a choisi des modèles à pondération fermée tout simplement parce qu’ils fonctionnent mieux. Toutefois, « nous expliquons tout le processus de développement et montrons le code. Il peut être basculé vers n’importe quel autre modèle, donc [il] prend en charge un pipeline entièrement ouvert », affirme Aymeric Roucher, qui a dirigé le projet Open Deep Research chez Hugging Face, à Ars Technica.

Dans cette vision, Roucher et ses collègues ont testé plusieurs grands modèles de langage, dont DeepSeek-R1, o3-mini et o1, ce dernier ayant été le plus efficace. Toutefois, les chercheurs prévoient de remplacer o1 par une version open source qu’ils ont récemment développée.

L’équipe a montré que l’approche agentique améliore considérablement l’efficacité et l’autonomie des grands modèles de langage. Alors que GPT-4o a obtenu un score de 29 % pour le test standard de performance General AI Assistants (GAIA), Deep Research a un score de 67 % en moyenne.

tests gaia llm
Graphique comparant les performances de quelques LLM frontières avec et sans cadre agentique. © Hugging Face

Un score de précision de 55,15 % contre 67,36 %

Open Deep Research a été évalué, dans le cadre du test GAIA, par le biais de séries de questions complexes dont la réponse nécessite plusieurs étapes. Les requêtes se présentaient par exemple comme suit : « Parmi les fruits représentés dans le tableau ‘Broderie d’Ouzbékistan’ de 2008, lesquels étaient servis au menu du petit-déjeuner d’octobre 1949 sur le paquebot qui a ensuite été utilisé comme accessoire flottant pour le film ‘Le dernier voyage’ ? Donnez les éléments sous forme de liste séparée par des virgules, en les classant dans le sens des aiguilles d’une montre en fonction de leur disposition dans le tableau à partir de la position 12 heures. Utilisez la forme plurielle de chaque fruit ».

La plupart des questions posées lors des évaluations GAIA sont très complexes et nécessitent de longs processus de raisonnement que même un humain trouverait difficiles. Afin de pouvoir répondre correctement à ce type de question, l’agent IA doit ratisser un très grand nombre de sources et les analyser de sorte à générer une réponse cohérente et structurée.

Open Deep Research a obtenu un score de 55,15 %, contre 67,36 % pour Deep Research pour le même test. L’agent IA d’OpenAI a obtenu un score de 72,57 % lors d’une analyse de plusieurs réponses combinées. Bien que l’agent open source ne soit pas encore aussi performant que celui d’OpenAI, il offre aux développeurs l’opportunité de le modifier et de l’améliorer.

En outre, parvenir à ce niveau de performance en seulement 24 heures de développement illustre la rapidité et l’efficacité des chercheurs dans la création de modèles performants à moindre coût. Cela montre que des modèles performants peuvent être développés avec des ressources plus limitées que celles utilisées pour les grands modèles propriétaires.

Les chercheurs de Hugging Face prévoient prochainement d’améliorer leur nouvel agent IA en incluant la prise en charge de davantage de formats de fichiers et en ajoutant des fonctionnalités de navigation Web basées sur la vision. Ils travaillent également sur le développement d’une version open source d’Operator, un autre agent IA d’OpenAI dédié à diverses tâches pratiques, telles que la planification détaillée de vacances, les réservations d’hôtels, de restaurants ou des achats en ligne.

Laisser un commentaire

Vous voulez éliminer les publicités tout en continuant de nous soutenir ?


Il suffit de s'abonner !


JE M'ABONNE