Google DeepMind presenta Gemini Robotics, un modelo basado en Gemini 2.0 que lleva la IA al mundo físico a través de la robótica

Desde Google DeepMind, hoy presentamos dos nuevos modelos de inteligencia artificial que sientan las bases de una nueva generación de robots:

  • Gemini Robotics: un modelo avanzado de visión-lenguaje-acción (VLA) creado a partir de Gemini 2.0, que incorpora acciones físicas como nueva modalidad para controlar directamente  a los robots. De manera que Gemini Robotics puede abordar tareas extremadamente complejas y de varios pasos que requieren una manipulación precisa, como plegar un origami o meter un bocadillo en una bolsa con cierre de zip.
  • Gemini Robotics-ER: un modelo de visión-lenguaje (VLM) con una comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando el razonamiento corporal de Gemini. Así, Gemini Robotics-ER mejora con creces capacidades como la de apuntar y la detección 3D para, por ejemplo, cuando se le muestra una taza de café, el modelo pueda intuir un agarre adecuado para cogerla por el asa y una trayectoria segura para acercarse a ella.

Estas capacidades de razonamiento, conseguidas al incorporar Gemini a ambos modelos, permiten a los diversos robots realizar una gama más amplia de tareas en el mundo real. Además, nos hemos asociado con Apptronik para crear esta próxima generación de robots humanoides.


Puedes acceder a toda la información en el blog oficial de Google.

Deja un comentario

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.