Robótica de Géminis: el razonamiento de IA se encuentra con el mundo físico

abril 30, 2025

15

Tabla de contenido

En los últimos primaveras, la inteligencia sintético (IA) ha reformista significativamente en varios campos, como el procesamiento del idioma natural (PNL) y la visión por computadora. Sin confiscación, un gran desafío para la IA ha sido su integración en el mundo físico. Si correctamente la IA se ha destacado en el razonamiento y la resolución de problemas complejos, estos logros se han definido en gran medida a los entornos digitales. Para permitir que la IA realice tareas físicas a través de la robótica, debe poseer una comprensión profunda del razonamiento espacial, la manipulación de objetos y la toma de decisiones. Para asaltar este desafío, Google ha introducido Gemini Robotics, un conjunto de modelos desarrollados deliberadamente para robótica y IA encarnada. Construido en Gemini 2.0, estos modelos de IA fusionan el razonamiento reformista de IA con el mundo físico para permitir que los robots llevaran a parte una amplia grado de tareas complejas.

Comprender la robótica de Géminis

Gemini Robotics es un par de modelos AI construidos sobre la pulvínulo de Gemini 2.0, un maniquí de visión (VLM) de última concepción capaz de procesar texto, imágenes, audio y video. Gemini Robotics es esencialmente una extensión de VLM en el maniquí de acción-idioma de visión (VLA), que permite al maniquí Gemini no solo comprender e interpretar las entradas visuales y procesar las instrucciones del idioma natural, sino incluso ejecutar acciones físicas en el mundo efectivo. Esta combinación es crítica para la robótica, permitiendo que las máquinas no solo «ve» su entorno, sino que incluso lo entiendan en el contexto del idioma humano y ejecute la naturaleza compleja de las tareas del mundo efectivo, desde una simple manipulación de objetos hasta actividades hábiles más intrincadas.

Una de las fortalezas secreto de Gemini Robotics radica en su capacidad para universalizar en una variedad de tareas sin requisito de reentrenamiento extenso. El maniquí puede seguir instrucciones de vocabulario abierta, ajustarse a las variaciones en el entorno e incluso manejar tareas imprevistas que no formaron parte de sus datos de entrenamiento iniciales. Esto es particularmente importante para crear robots que pueden proceder en entornos dinámicos e impredecibles como hogares o entornos industriales.

LEER AI está ayudando a mantener vivos los combustibles fósiles

Razonamiento incorporado

Un desafío importante en la robótica siempre ha sido la brecha entre el razonamiento digital y la interacción física. Si correctamente los humanos pueden comprender fácilmente las relaciones espaciales complejas e interactuar sin problemas con su entorno, los robots han luchado por replicar estas habilidades. Por ejemplo, los robots son limitados en su comprensión de la dinámica espacial, adaptándose a nuevas situaciones y manejando interacciones impredecibles del mundo efectivo. Para asaltar estos desafíos, Gemini Robotics incorpora «razonamiento incorporado», un proceso que permite que el sistema comprenda e interactúe con el mundo físico de una guisa similar a la forma en que los humanos.

Por el contrario del razonamiento de IA en entornos digitales, el razonamiento incorporado implica varios componentes cruciales, como:

Detección y manipulación de objetos: El razonamiento incorporado permite que Gemini Robotics detecte e identifique objetos en su entorno, incluso cuando no se ven previamente. Puede predecir dónde advertir objetos, determinar su estado y ejecutar movimientos como cajones de comprensión, vertidos líquidos o papel plegable.
Trayectoria y predicción de agarre: El razonamiento incorporado permite a Gemini Robotics predecir las rutas más eficientes para el movimiento e identificar puntos óptimos para prolongar objetos. Esta capacidad es esencial para las tareas que requieren precisión.
Entendimiento 3D: El razonamiento incorporado permite a los robots percibir y comprender los espacios tridimensionales. Esta capacidad es especialmente crucial para las tareas que requieren una manipulación espacial compleja, como plegar ropa o objetos de ensamblaje. Comprender 3D incluso permite a los robots sobresalir en tareas que involucran la correspondencia 3D de visión múltiple y las predicciones de cuadros limitados 3D. Estas habilidades podrían ser vitales para que los robots manejen con precisión los objetos.

Destera y aclimatación: la secreto para las tareas del mundo efectivo

Si correctamente la detección y la comprensión de los objetos son críticos, el cierto desafío de la robótica radica en realizar tareas hábiles que requieren habilidades motoras finas. Ya sea que se esté plegando un zorro de origami o jugando un entretenimiento de cartas, las tareas que requieren suscripción precisión y coordinación suelen estar más allá de la capacidad de la mayoría de los sistemas de IA. Sin confiscación, Gemini Robotics ha sido diseñado específicamente para sobresalir en tales tareas.

Habilidades motoras finas: La capacidad del maniquí para manejar tareas complejas, como plegar ropa, apilar objetos o apostar juegos, demuestra su destreza descubierta. Con el ajuste adicional, Géminis Robotics puede manejar tareas que requieren coordinación en múltiples grados de atrevimiento, como usar entreambos brazos para manipulaciones complejas.
Educación de pocos disparos: Géminis Robotics incluso presenta el concepto de enseñanza de pocos disparos, lo que le permite educarse nuevas tareas con demostraciones mínimas. Por ejemplo, con tan solo 100 demostraciones, Gemini Robotics puede educarse a realizar una tarea que de otro modo podría requerir datos de capacitación extensos.
Adaptarse a nuevas realizaciones: Otra característica secreto de Gemini Robotics es su capacidad para adaptarse a nuevas realizaciones de robots. Ya sea que se trate de un autómata bi-brazo o un humanoide con un anciano número de juntas, el maniquí puede controlar a la perfección varios tipos de cuerpos robóticos, lo que lo hace versátil y adaptable a diferentes configuraciones de hardware.

LEER Más allá de la lógica: repensando el pensamiento humano con la teoría de la máquina de analogía de Geoffrey Hinton

Control de disparo cero y aclimatación rápida

Una de las características destacadas de Gemini Robotics es su capacidad para controlar los robots de forma de enseñanza de disparo cero o de pocos disparos. El control de disparo cero se refiere a la capacidad de ejecutar tareas sin requerir capacitación específica para cada tarea individual, mientras que el enseñanza de pocos disparos implica educarse de un pequeño conjunto de ejemplos.

Control de disparo cero a través de la concepción de código: Géminis Robotics puede crear código para controlar los robots incluso cuando las acciones específicas requeridas nunca antiguamente se han manido. Por ejemplo, cuando se le proporciona una descripción de la tarea de suspensión nivel, Gemini puede crear el código requerido para ejecutar la tarea utilizando sus capacidades de razonamiento para comprender la dinámica y el entorno físico.
Educación de pocos disparos: En los casos en que la tarea requiere una destreza más compleja, el maniquí incluso puede educarse de las demostraciones e inmediatamente aplicar ese conocimiento para realizar la tarea de guisa efectiva. Esta capacidad de adaptarse rápidamente a nuevas situaciones es un avance significativo en el control robótico, especialmente para entornos que requieren cambios constantes o imprevisibilidad.

Implicaciones futuras

Gemini Robotics es un avance animoso para la robótica de uso común. Al combinar las capacidades de razonamiento de la IA con la destreza y la adaptabilidad de los robots, nos acerca al objetivo de crear robots que puedan integrarse fácilmente en la vida diaria y realizar una variedad de tareas que requieren interacción humana.

Las aplicaciones potenciales de estos modelos son enormes. En entornos industriales, Gemini Robotics podría estar de moda para tareas de ensamblaje, inspecciones y mantenimiento complejos. En los hogares, podría ayudar con las tareas, el cuidado y el entretenimiento personal. A medida que estos modelos continúan avanzando, es probable que los robots se conviertan en tecnologías generalizadas que podrían destapar nuevas posibilidades en múltiples sectores.

LEER Iniciativa Doge de Elon Musk: ¿Puede IA decidir qué trabajos federales cortar?

El resultado final

Gemini Robotics es un conjunto de modelos construidos en Gemini 2.0, diseñado para permitir que los robots realicen un razonamiento incorporado. Estos modelos pueden ayudar a los ingenieros y desarrolladores a crear robots a IA que pueden entender e interactuar con el mundo físico de guisa humana. Con la capacidad de realizar tareas complejas con suscripción precisión y flexibilidad, Gemini Robotics incorpora características como razonamiento incorporado, control de disparo cero y enseñanza de pocos disparos. Estas capacidades permiten que los robots se adapten a su entorno sin la requisito de un reentrenamiento extenso. Gemini Robotics tiene el potencial de metamorfosear las industrias, desde la fabricación hasta la afluencia para el hogar, lo que hace que los robots sean más capaces y más seguros en las aplicaciones del mundo efectivo. A medida que estos modelos continúan evolucionando, tienen el potencial de redefinir el futuro de la robótica.

Etiquetas
Noticias de IA

Artículo anterior

Wiz presenta un boleto más barato para la fiesta de sincronización de luz inteligente HDMI

Artículo siguiente

Las mejores aplicaciones que usan la NPU en una computadora portátil Snapdragon Windows

Robótica de Géminis: el razonamiento de IA se encuentra con el mundo físico

Comprender la robótica de Géminis

Razonamiento incorporado

Destera y aclimatación: la secreto para las tareas del mundo efectivo

Control de disparo cero y aclimatación rápida

Implicaciones futuras

El resultado final

Artículos relacionados

Como dice el analista, Apple se saltará el iPhone 19, ¿es...

Su PC con Windows 11 tiene una función de apagado de...

Los piratas informáticos «Jingle Thief» explotan la infraestructura de la nube...

DEJA UNA RESPUESTA Cancelar respuesta

Últimos artículos

Como dice el analista, Apple se saltará el iPhone 19, ¿es...

Su PC con Windows 11 tiene una función de apagado de...

Los piratas informáticos «Jingle Thief» explotan la infraestructura de la nube...

Algo introducido Cliente IP Wi-Fi 7 1×1

iOS 26 modifica el iPhone Always On Display de una manera...