Google DeepMind abre el acceso a Project Genie, una herramienta de inteligencia artificial para crear mundos de juegos interactivos a partir de mensajes de texto e imágenes.
A partir del jueves, los suscriptores de Google AI Ultra en los EE. UU. podrán probar un prototipo de investigación experimental impulsado por una combinación del último modelo global de Google, Genie 3, el modelo de generación de imágenes Nano Banana Pro y Gemini.
La medida, anunciada cinco meses después de la vista previa de la investigación de Genie 3, es parte de un esfuerzo más amplio de DeepMind para recopilar comentarios de los usuarios y datos de entrenamiento mientras se apresura a desarrollar un modelo del mundo más capaz.
Un modelo mundial es un sistema de inteligencia artificial que genera una representación interna del entorno que puede usarse para predecir resultados futuros y planificar acciones. Muchos líderes de IA, incluido DeepMind, creen que los modelos mundiales son un paso crítico hacia el logro de la inteligencia artificial general (AGI). Pero a corto plazo, laboratorios como DeepMind están imaginando planes de comercialización que comienzan con videojuegos y otros entretenimientos y se extienden hasta el entrenamiento de agentes encarnados (también conocidos como robots) en simulaciones.
El lanzamiento de Project Genie de DeepMind se produce cuando la competencia global de modelaje comienza a intensificarse. World Labs de Fei-Fei Li lanzó su primer producto comercial llamado Marble a finales del año pasado. Runway, una startup de generación de videos de IA, también lanzó recientemente un modelo mundial. La startup AMI Labs del ex científico jefe de Meta Yann LeCun también se centrará en el desarrollo de modelos globales.
«Creo que es realmente emocionante estar en un lugar donde tenemos acceso a más personas y más comentarios», dijo a TechCrunch Shlomi Fruchter, directora de investigación de DeepMind, en una entrevista en video, radiante de entusiasmo por el lanzamiento de Project Genie.
Los investigadores de DeepMind con los que habló TechCrunch fueron sinceros sobre la naturaleza experimental de la herramienta. Es inconsistente, a veces produce un mundo jugable impresionante y otras veces produce resultados desconcertantes que no dan en el blanco. Así es como funciona:
evento de crisis tecnológica
bostón, massachusetts
|
23 de junio de 2026

Comienzas a «dibujar el mundo» proporcionando indicaciones de texto tanto para el entorno como para el protagonista, lo que luego te permite interactuar con el mundo desde una perspectiva en primera o tercera persona. Nano Banana Pro crea imágenes según sus indicaciones. En teoría, Genie podría modificar esa imagen antes de usarla como punto de partida en un mundo interactivo. La solución funcionó en su mayor parte, pero la modelo a veces tropezaba y me daba el cabello morado cuando le pedía verde.
También puedes usar fotos de la vida real como base para que tu modelo construya tu mundo, pero esto también puede ser impredecible. (Más sobre esto más adelante).
Una vez que esté satisfecho con la imagen, Project Genie tarda unos segundos en crear un mundo explorable. También puede remezclar mundos existentes en nuevas interpretaciones basándose en indicaciones o explorar mundos seleccionados utilizando la galería o las herramientas aleatorias para inspirarse. Luego podrás descargar videos del mundo que acabas de explorar.
Actualmente, DeepMind solo permite 60 segundos de generación y navegación mundial debido a limitaciones presupuestarias e informáticas. Debido a que Genie 3 es un modelo autorregresivo, requiere una gran cantidad de computación dedicada y existen límites estrictos sobre cuánto DeepMind puede proporcionar a los usuarios.
«La razón por la que lo limitamos a 60 segundos fue porque queríamos llegar a más usuarios», dijo Fruchter. «Básicamente, cuando lo estás usando, tienes tu propio chip en alguna parte y es exclusivo para tu sesión».
Añadió que extenderse más allá de los 60 segundos reduce el valor incremental de la prueba.
«El entorno es interesante, pero en algún momento el nivel de interacción limita en cierta medida el dinamismo del entorno. Aún así, creemos que es una limitación que queremos mejorar».
La rareza funciona, el realismo no.

Cuando utilicé el modelo, las barandillas de seguridad ya estaban operativas. No fue posible generar nada parecido a un desnudo. Tampoco podría generar un mundo en el que se pudiera oler ni remotamente a Disney u otro material protegido por derechos de autor. (En diciembre, Disney presentó una orden judicial contra Google, acusando a sus modelos de inteligencia artificial de infringir los derechos de autor al entrenar a los personajes y la propiedad intelectual de Disney para generar contenido no autorizado). Genie ni siquiera pudo generar un mundo de sirenas explorando una tierra de fantasía submarina o una reina de hielo con un castillo de invierno.
Aún así, la demostración fue muy impresionante. El primer mundo que construí fue un intento de hacer realidad mis pequeñas fantasías infantiles. En el interior, pudimos explorar un castillo en las nubes hecho de malvaviscos, un río de salsa de chocolate y un árbol hecho de dulces. (Sí, yo era un niño gordito). Le pedí a la modelo que lo hiciera al estilo de trabajo con arcilla. Y me entregó un mundo de fantasía que habría devorado cuando era niño. Las torres y chapiteles blancos y pastel del castillo son regordetas y lucen lo suficientemente deliciosas como para arrancar trozos y sumergirse en un foso de chocolate. (vídeo arriba)

Dicho esto, Project Genie todavía tiene algunos problemas que resolver.
Los modelos se destacaron en la creación de mundos basados en indicaciones artísticas, incluidas acuarelas, estilos de anime y la estética clásica del manga. Sin embargo, tendían a fallar cuando se trataba de mundos fotorrealistas o cinematográficos, lo que a menudo los hacía parecer más un videojuego que una persona real en un entorno real.
Tampoco siempre respondió bien cuando se trabajaba con fotos reales. Le di una foto de mi oficina y le pedí que creara un mundo basado en ella, y creó un mundo con algunos de los mismos muebles de mi oficina (un escritorio de madera, una planta y un sofá gris) dispuestos en un diseño diferente. Y parecía estéril, digital y poco realista.
Introduces una foto de un escritorio con un animal de peluche encima y Project Genie crea una animación del juguete moviéndose por el espacio, a veces reaccionando a otros objetos a su paso.
Esta interactividad es algo en lo que DeepMind está trabajando para mejorar. Ha habido varias ocasiones en las que mi personaje ha caído a través de paredes y otros objetos sólidos.

Cuando DeepMind lanzó por primera vez Genie 3, los investigadores destacaron cómo la arquitectura autorregresiva del modelo permitía recordar lo que generaba. Así que quería probarlo volviendo a una parte del entorno que el modelo ya había generado y ver si era el mismo. En la mayoría de los casos, el modelo tuvo éxito. En un caso, generamos un gato explorando otro escritorio, pero solo una vez el modelo generó una segunda taza cuando regresó al lado derecho del escritorio.
La parte que encontré más frustrante fue cómo usar las flechas para mirar a nuestro alrededor, la barra espaciadora para saltar o ascender y las teclas WASD para moverme. No soy un jugador, así que esto no me resultó natural, pero las teclas a menudo no respondían o volaban en la dirección equivocada. Tratar de caminar desde un lado de una habitación hasta una puerta en el otro a menudo resultaba en un movimiento caótico en zigzag, similar a tratar de conducir un carrito de compras con una rueda rota.
Fruchter me aseguró que su equipo es consciente de estas deficiencias y me recordó nuevamente que Project Genie es un prototipo experimental. En el futuro, dijo, el equipo espera aumentar el realismo y mejorar las capacidades de interacción, como brindar a los usuarios más control sobre sus acciones y entornos.
«No pensamos en[Project Genie]como un producto de principio a fin al que la gente volverá todos los días, pero sí creemos que ya se vislumbra algo que es interesante y único y que no es posible de otra manera», dijo.
Source link
