Passer au contenu

Gemini Robotics : l’IA de Google qui apprend aux robots à s’adapter au monde réel

Les robots qui feront la vaisselle ou qui plieront le linge ne sont pas pour demain. Il faudra auparavant améliorer les capacités mécaniques des robots, et surtout leur cervelle. Google s’y emploie avec Gemini Robotics, une nouvelle variante de son IA.

L’industrie s’est trouvée une nouvelle marotte : les robots. Amazon, Meta, Apple, Tesla et d’autres encore investissent sans compter dans ce secteur en devenir, avec l’ambition de refourguer à chaque foyer un (ou plusieurs !) robots pour nous faciliter la vie au quotidien.

Et si les robots comprenaient enfin leur environnement ?

Mais avant ça, il faudra un cerveau à ces robots, afin qu’ils puissent s’adapter à leur environnement et gérer des situations inattendues. Google l’a bien compris : sa division DeepMing a dévoilé Gemini Robotics, un modèle d’IA basé sur Gemini 2.0. Il a été conçu pour doter les robots d’une « intelligence » capable de s’adapter et d’interagir dans le monde physique.

Deux versions ont été présentées : Gemini Robotics tout court, un modèle multimodal (VMA pour vision-langage-action) qui confère au robot la capacité de comprendre les instructions et d’exécuter toutes sortes de tâches. Cette mouture a été pensée pour s’adapter à des situations nouvelles, gérer des objets inconnus et exécuter des tâches jamais rencontrées lors de son entraînement, ce que Google qualifie de « généralité ».

Gemini Robotics doit également faire preuve d’« interactivité », en comprenant et répondant aux instructions en langage naturel. Le modèle doit surveiller en permanence l’environnement et ajuster ses actions en conséquence et en temps réel. Enfin, il est aussi question de « dextérité » : armé de ce modèle, les robots sont en mesure de réaliser des manipulations très précises, comme plier une feuille de papier ou ranger des objets dans un sac en plastique.

Tout cela permet par exemple au robot de replanifier son action immédiatement, si un objet glisse de ses mains ou s’il est déplacé. Google a aussi présenté Gemini Robotics-ER : une version spécialisée en raisonnement spatial et en interaction avec l’environnement. Ce modèle améliore la perception 3D, la planification et la génération de code pour exécuter des actions précises.

Lorsqu’on lui montre une tasse de café, le robot doté du modèle Robotics-ER peut déterminer intuitivement qu’il doit utiliser une prise à deux doigts pour saisir la anse et calculer une trajectoire sécurisée pour l’approcher.

Un des premiers partenaires de Google dans cet univers est Apptronik, qui développe Apollo, un robot humanoïde. Il n’est pas précisé si ce dernier peut intégrer Gemini Robotics, en revanche l’objectif de cette collaboration est de créer des robots capables de réaliser des tâches dans le monde réel avec cette technologie. Gemini Robotics peut ainsi être utilisé sur plusieurs types de robots, dont des bras robotiques à deux membres.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : Google


Mickaël Bazoge