Google DeepMind ha presentado Genie 3, un innovador «modelo del mundo» capaz de generar entornos 3D en tiempo real a partir de una sola imagen o una indicación de texto. El gigante tecnológico afirma que este sofisticado nuevo algoritmo no solo amplía las posibilidades en experiencias educativas, creativas y de videojuegos, sino que también representa un avance significativo hacia la Inteligencia Artificial General (IAG), una IA que iguala o supera las habilidades cognitivas humanas.
El Nuevo Modelo del Mundo de Google, Genie 3, allana el Camino para Entornos 3D en Tiempo Real y la IA General
Según The Black Box Lab, una agencia de desarrollo de negocios, los modelos del mundo son algoritmos que construyen representaciones internas de un entorno. Esto permite a las soluciones de IA simular eventos y predecir resultados futuros basados en estas emulaciones internas. El objetivo es replicar los procesos de razonamiento humano, otorgando a las máquinas una comprensión más profunda del contexto físico.
A diferencia de los modelos generativos tradicionales, que podrían aprender que una pelota de baloncesto rebota a partir de años de datos de video pero carecen de una comprensión real del porqué, un modelo del mundo posee una «comprensión básica» de las causas del rebote. Esto le permite representar el fenómeno y anticipar movimientos futuros con mayor precisión.
Las Ambiciones de IA de Google se Aceleran con Genie 3
Google ha estado invirtiendo fuertemente en esta área. A finales del año pasado, la compañía introdujo Genie 2, un modelo capaz de crear mundos interactivos a partir de imágenes. En enero, Google formó un equipo dedicado al desarrollo de modelos del mundo, liderado por Tim Brooks, anteriormente codirector del proyecto Sora de OpenAI.
Con Genie 3, Google logra su avance más significativo hasta la fecha. Es el primer modelo del mundo de Google que permite la interacción en tiempo real, presumiendo de notables mejoras en consistencia y realismo en comparación con su predecesor.

El nuevo algoritmo genera automáticamente entornos virtuales 3D que los usuarios o agentes de IA pueden explorar durante «varios minutos».
Realismo Mejorado y Capacidades Interactivas
Las simulaciones se producen a una resolución de 720 píxeles y 24 fotogramas por segundo. Crucialmente, Genie 3 es compatible con «eventos mundiales activados por indicaciones». Esto significa que los entornos pueden modificarse mediante comandos que alteran aspectos como el clima o la inclusión de nuevos personajes en una escena.
El equipo de Google destaca que una de las mejoras más significativas de Genie 3 es su capacidad para mantener las características físicas de los espacios durante aproximadamente un minuto. Esto significa que si un usuario abandona una escena y regresa dentro de ese lapso, elementos como un coche aparcado, un cuadro colgado o la escritura en una pizarra permanecerán intactos.
Los desarrolladores señalaron que lograr este nivel de control e interactividad en tiempo real requirió avances técnicos significativos. «Durante la generación autorregresiva de cada fotograma, el modelo debe considerar la trayectoria previa, que se acumula con el tiempo«, explicaron.
«Por ejemplo, si un usuario regresa a un lugar después de un minuto, el modelo debe recuperar la información correspondiente de hace un minuto. Para mantener la interactividad en tiempo real, este cálculo debe realizarse varias veces por segundo en respuesta a nuevas entradas».
Esta sofisticada capacidad de interacción subraya el compromiso de Google de expandir los límites de la IA. AL pasar de la simple generación de contenido a la creación de experiencias virtuales verdaderamente inmersivas e inteligentes.
