Google renforce ses ambitions concernant l’intelligence artificielle. Selon des informations récentes, l’entreprise met au point une technologie potentiellement révolutionnaire, visant à transformer les interactions entre les utilisateurs et leur ordinateur, par le biais d’un agent d’intelligence artificielle au nom de code de « Jarvis » capable de contrôler Chrome pour effectuer diverses tâches. Bien que cet outil n’ait pas encore été officiellement dévoilé, une mise en ligne accidentelle a permis à quelques utilisateurs privilégiés de le découvrir.

Récemment, le média The Information a révélé l’existence de ce projet « secret » chez Google. D’après des sources proches de l’entreprise, le projet, baptisé en interne « Jarvis » en référence à l’assistant virtuel d’Iron Man, est un agent intelligent qui serait capable de prendre le contrôle du navigateur web pour effectuer des tâches. Conçu pour s’intégrer au navigateur Chrome, Jarvis peut ainsi imiter les actions humaines. Par exemple, il pourrait naviguer sur le Web, effectuer des recherches, réaliser des achats ou réserver des vols, allégeant ainsi la gestion quotidienne des activités en ligne.

Pour accomplir ces tâches, l’agent utilise une technique consistant à prendre fréquemment des captures d’écran de l’interface utilisateur. Il analyse ces images pour déchiffrer l’interface, lui permettant ainsi d’effectuer des actions comme cliquer sur des boutons ou remplir des champs de texte. Le bot serait alimenté par le modèle de langage Gemini 2.

Un dévoilement fortuit

L’existence de Jarvis a été révélée lorsque Google l’a accidentellement rendu public le 5 novembre dernier. Pendant quelques heures, il était accessible sur la boutique d’extensions de Google, avant que la page ne soit retirée. Encore une fois, c’est le site The Information qui a rapporté cet incident, confirmant ainsi les fuites précédentes. L’entreprise envisagerait de lancer Jarvis le mois prochain, coïncidant avec le déploiement de Gemini 2.

Le nouvel assistant a été décrit comme un « compagnon utile qui navigue sur le Web pour son utilisateur ». Pour en découvrir pleinement les fonctionnalités, il faudra toutefois attendre son lancement officiel. En effet, lorsqu’un journaliste a tenté de l’explorer, le produit s’est avéré inopérationnel à cause des permissions d’accès requises. De plus, selon The Information, Jarvis serait encore relativement lent dans l’exécution de ses actions.

Analyse de l’écran utilisateur par l’IA : une technologie en plein essor ?

Cette révélation fortuite de Jarvis intervient alors que d’autres géants technologiques annoncent des projets similaires. Microsoft, par exemple, a récemment enrichi son assistant Copilot de nouvelles capacités visuelles pour offrir une expérience plus personnalisée. La fonctionnalité Copilot Vision permet à l’assistant de « voir » ce que l’utilisateur visualise sur une page Web, analysant textes, images et autres contenus pour répondre directement aux requêtes.

De son côté, Anthropic a amélioré son modèle Claude 3.5 en y intégrant des fonctionnalités similaires à celles de Jarvis, exploitant des captures d’écran pour analyser le contenu et exécuter des tâches comme déplacer un curseur ou cliquer sur un bouton de manière autonome. OpenAI serait également engagé dans un projet similaire.

Bien que l’outil de Google vise à améliorer l’expérience utilisateur, il pourrait néanmoins susciter des critiques. Certains utilisateurs estiment que l’entreprise priorise trop le développement de ses nouvelles IA, parfois au détriment de la fiabilité de ses services actuels, avec des erreurs fréquentes rapportées dans l’utilisation de certains produits.