Google dévoile Gemini 2.5 Computer Use, une IA capable de naviguer sur le web de manière autonome
Un jour après l’événement DevDay organisé par OpenAI, Google annonce Gemini 2.5 Computer Use, une intelligence artificielle prête à interagir directement avec les interfaces web sans intervention humaine.
Navigation et interaction autonomes sur les pages web
Cet outil permet à des agents d’IA de cliquer sur des éléments, de saisir du texte dans des formulaires et de faire défiler des pages, comme le ferait un utilisateur. Le service s’appuie sur les capacités de compréhension et de raisonnement visuel associées à Gemini 2.5 Pro.
Fonctionnement par boucle d’actions
Le mode opératoire repose sur une boucle d’actions : après chaque instruction, l’agent analyse à chaque étape une capture d’écran, le contexte de navigation et l’historique des actions pour déterminer la prochaine étape jusqu’à l’accomplissement de la tâche.
Gestion des requêtes sensibles
Pour les requêtes jugées sensibles, comme un achat en ligne, une confirmation explicite de l’utilisateur est requise avant de poursuivre.
État actuel et accès
Pour le moment, Gemini 2.5 Computer Use est proposé en préversion et réservé aux développeurs, avec un accès limité au navigateur web.