Monitor Software
Microsoft Magma, modelo de IA generativa capaz de controlar robots

Publicación:26-02-2025
TEMA: #Software
Combina el proceso de lenguaje e imágenes para controlar interfaces de software y sistemas robóticos.
Microsoft Research ha lanzado un nuevo modelo fundacional de IA que combina el proceso de lenguaje e imágenes para controlar interfaces de software y sistemas robóticos. Es decir, Microsoft Magma, que así se llama este modelo, es capaz de controlar robots.
Al menos es lo que aseguran desde los laboratorios de la compañía, que han probado el modelo internamente, y que destacan que podría suponer un avance en el terreno de las IAs multimodales que pueden funcionar de manera interactiva en espacios reales y digitales.
Los de Redmond señalan que Microsoft Magma es el primer modelo de IA que no solo puede procesar datos multimodales (texto, imágenes y vídeo), sino que además puede actuar de manera nativa sobre ellos. Lo puede hacer tanto facilitando la manipulación de objetos físicos como moviéndose por una interfaz de usuario.
El proyecto de desarrollo de Magma, eso sí, no es exclusivo de Microsoft, sino que es una colaboración entre un grupo de sus investigadores, la Universidad de Maryland, la de Wisconsin-Madison, la de Washington, y KAIST (Instituto de ciencia y tecnología avanzadas de Corea).
A diferencia de sistemas de IA multimodales para robots, como Palm-E, RT-2 o ChatGPT para Robótica, que emplean modelos grandes de lenguaje como interfaz, y necesitan modelos independientes para la percepción y el control, Magma integra todas sus capacidades en un único modelo fundacional.
En cuanto a su fin, Microsoft lo cataloga como un avance hacia la IA de agentes, esto es, hacia un sistema que pueda realizar planes de manera autónoma, así como realizar tareas compuestas de varios pasos, en representación de un humano, en vez de solo contestar preguntas en función de lo que el robot ve o percibe.
Así, según los investigadores que lo han desarrollado y probado, cuando a Microsoft Magma se le describe un objetivo a conseguir, es capaz de formular planes y de ejecutar acciones para conseguirlo. «Al transferir de manera efectiva el conocimiento de datos y lenguaje disponibles libremente, Magma abarca las inteligencias temporal, espacial y verbal, y las utiliza para abordar tareas y configuraciones complejas«.
Magma se basa en tecnología de LLM del tipo que se alimenta a partir de tokens que se pasan a una red neuronal, y se diferencia de os modelos de lenguaje y visión convencionales superando lo que se conoce como inteligencia verbal para incluir también la conocida como inteligencia espacial, que permite tanto planificar como ejecutar acciones. Esto unido a su entrenamiento mezclando imágenes, vídeos, datos de robótica e interacciones de interfaz de usuario; lo convierten en un agente multimodal real.
Las funciones que permiten a Microsoft Magma controlar robots
Este modelo cuenta, por otra parte, con dos componentes técnicos distintivos. El primero de ellos es Set-of-Mark, que identifica objetos que se pueden manipular generando etiquetas numéricas a elementos interactivos, como botones en los que se puede pulsar en una interfaz de usuario, o objetos que se pueden coger y agarrar en un espacio de trabajo co robots. El segundo es Trace-of-Mark, que es capaz de aprender patrones de movimiento a partir de datos en vídeos.
Según Microsoft, estas dos funciones permiten que el modelo pueda realizar tareas como moverse por interfaces de usuario, o dirigir brazos robóticos para agarrar objetos. En cuanto a sus variantes, la compañía asegura que los resultados que ha obtenido Magma-8B en varios bancos de pruebas en cuanto a los tipos de tareas mencionados, son bastante buenos, superando incluso los obtenidos por modelos como OpenVLA en cuanto a vision-lenguaje-acción, en diversas tareas de manipulación robótica.
Eso sí, como sucede con todos los modelos de IA, Magma no es perfecto, y todavía tiene limitaciones técnicas en la toma de decisiones complejas que deben realizarse paso a paso y que necesiten realizar varios pasos a lo largo del tiempo. Microsoft asegura que sigue trabajando para mejorar estas funciones, y que está investigando para conseguirlo.
Mientras tanto, el código de inferencia y entrenamiento de Microsoft Magma ya está disponible en Github, lo que permitirá a investigadores externos trabajar basándose en él. Si Magma cumple las promesas que han hecho de él desde Microsoft, podría llevar a los asistentes de IA de la compañía más allá de las interacciones de texto limitadas, y permitirles operar software de manera autónoma, además de la ejecución de tareas del mundo real a través de la robótica.
« Especial »