Monitor Software

Gemini se va acercando a Project Astra

A través de Gemini Live, el usuario puede mantener conversaciones habladas con la IA mientras le muestra objetos, escenas o texto mediante la cámara.

Publicación:25-03-2025

TEMA: #Software

++--

Un asistente multimodal, capaz de ver, escuchar y comprender, actuando como un agente contextual e inteligente.

Google se encuentra plenamente entregada a Gemini, su conjunto de funciones basadas en inteligencia artificial que se están integrando, a gran velocidad, en gran parte del catálogo de productos y servicios de la compañía del buscador. Y es lógico, claro, pues desde principios de 2024 estamos viviendo la gran eclosión de esta tecnología con su salto al mercado de consumo. Pues, como ya hemos recordado en alguna ocasión, la inteligencia artificial no es algo nuevo, pero sí que lo es que esté calando tanto, de manera tan aplastante, en nuestro día a día. Eso sí, algunos, desde mayo del año pasado, más concretamente desde la celebración del Google IO 2024, hemos sentido que las interacciones con la IA estaban bastante limitadas. ¿Por qué? Porque fue entonces cuando Google nos mostró Project Astra.

Ahora, casi un año después de aquella presentación, empezamos a ver los primeros signos tangibles de que aquella promesa empieza a tomar forma. Gemini Live, una función que permite interactuar con la inteligencia artificial mientras esta accede en tiempo real a la cámara del dispositivo, ha comenzado a desplegarse silenciosamente. No ha habido anuncio oficial por parte de Google, pero como confirma The Verge, algunos usuarios ya han comenzado a recibir esta funcionalidad en la app de Gemini.

A través de Gemini Live, el usuario puede mantener conversaciones habladas con la IA mientras le muestra objetos, escenas o texto mediante la cámara. La IA no solo responde a lo que se le dice, sino también a lo que ve, interpretando el contexto visual de manera dinámica. Además, también es posible compartir la pantalla del dispositivo, permitiendo que Gemini observe lo que el usuario está haciendo y le asista en consecuencia, todo en tiempo real y con un flujo conversacional fluido.

Estas capacidades reflejan directamente el espíritu de lo que Google mostró con Project Astra: un asistente multimodal, capaz de ver, escuchar y comprender, actuando como un agente contextual e inteligente. Aquel vídeo que parecía tan lejano, tan cuidadosamente preparado, empieza a adquirir una dimensión más real cuando el usuario puede, por ejemplo, enfocar un cartel con la cámara y pedirle a Gemini que le dé contexto adicional.

Eso sí, lo que se está desplegando ahora es solo una parte de ese futuro. No estamos aún ante la experiencia completa que se mostró en Google I/O 2024, pero sí ante su manifestación más avanzada hasta la fecha. La función está llegando a dispositivos móviles de forma progresiva, aunque Google no ha especificado ni regiones ni modelos concretos, ni tampoco plazos definidos para su expansión global. Todo apunta a que será a lo largo de 2025 cuando veamos una disponibilidad más amplia.

Y yo no puedo evitar pensar que esta vez sí, por fin, ya no estamos ante una demo aspiracional ni ante una visión a largo plazo. Project Astra comienza a desplegarse, aunque sea a cuentagotas, y eso lo cambia todo. Porque si la IA empieza a ver lo que vemos, a escuchar lo que oímos y a comprender lo que hacemos, la interacción con la tecnología está a punto de entrar en una fase completamente distinta.

« Especial »

Te podria interesar