Google Deepmind ha revelado el Genie 3, el último modelo mundial básico que puede usarse para capacitar a los agentes de IA de propósito general. Esto establece que los laboratorios de IA crean un importante trampolín en el camino hacia la «información general artificial» o la inteligencia humana.
«El Genie 3 es el primer modelo mundial interactivo de propósito general en tiempo real», dijo Shlomi Fruchter, directora de investigación de Deepmind, durante una conferencia de prensa. «Va más allá del modelo de mundo estrecho que anteriormente existía. No es exclusivo de un entorno particular. Puede generar tanto la fotografía como el mundo real y el mundo imaginario, y todo lo demás».
Aunque aún no se ha publicado en la vista previa de la investigación, Genie 3 se basa tanto en su predecesor Genie 2 (que puede generar nuevos entornos para los agentes) como el último modelo de generación de videos VEO 3 de Deepmind (se dice que tiene una comprensión profunda de la física).

Con un mensaje de texto simple, Genie 3 puede generar un entorno 3D interactivo durante varios minutos a una resolución de 720p a 24 cuadros/seg. Este es un gran salto de 10 a 20 segundos que Genie 2 puede generar. Este modelo también presenta la capacidad de cambiar el mundo generado utilizando «eventos mundiales rápidos» o indicaciones.
Quizás lo más importante es que las simulaciones en Genie 3 son físicamente consistentes con el tiempo, ya que el modelo puede recordar lo que generó anteriormente. Esta es la capacidad que DeepMind dice que los investigadores no programaron explícitamente el modelo.
Según Fruchter, Genie 3 influye en la experiencia educativa, los juegos o los conceptos creativos de creación de prototipos, pero su verdadero desbloqueo aparece en los agentes de capacitación para tareas de propósito general que se ha dicho que es esencial para llegar a AGI.
«Creemos que el modelo mundial está dirigido a las carreteras a AGI, particularmente específicamente específicamente, específicamente agentes específicos», dijo Jack Parker-Holder, científico investigador del equipo de extremo abierto de Deepmind, durante una sesión informativa.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025

El Genie 3 parece estar diseñado para resolver ese cuello de botella. Al igual que VEO, no se basa en motores de física codificados. En cambio, DeepMind dijo que el modelo enseña cómo funciona el mundo, cómo los objetos se mueven, caen e interactúan.
«Este modelo está comprimido automáticamente, lo que significa que produce un cuadro a la vez», dijo Fultor a TechCrunch en una entrevista. «Para determinar qué sucede después, tenemos que mirar hacia atrás en lo que se generó anteriormente. Esa es una parte importante de la arquitectura».
Según la compañía, esa memoria ayuda a la consistencia del mundo simulado de Genie 3. Esto permite a los humanos desarrollar expertos de física de la misma manera que la forma en que los humanos entienden que el vidrio se tambalea en el borde de la mesa, o que deben agacharse para evitar que se caen los objetos.
En particular, DeepMind dice que el modelo también podría llevar a los agentes de IA a sus límites. Obligan a las personas a aprender de sus propias experiencias, al igual que los humanos aprenden en el mundo real.
Como ejemplo, DeepMind compartió la prueba para Genie 3 con una versión reciente del agente generalista escalable, directivo Multiworld (SIMA) y les ordenó que persigan un conjunto de objetivos. En un entorno, pidieron a los agentes que realizaran tareas como «acercarse a un compactador de basura verde brillante» y «caminar hacia una carretilla elevadora roja llena».
«En los tres casos, los agentes de Sima pueden alcanzar sus objetivos», dijo Parker Holder. «Simplemente toma medidas del agente. Por lo tanto, el agente puede alcanzar sus objetivos, simularse en todo el mundo y tomar medidas en el mundo. Genie3 avanza.

Dicho esto, Genie 3 tiene sus limitaciones. Por ejemplo, los investigadores afirman poder comprender la física, pero las manifestaciones que muestran a los esquiadores que corren por las montañas no reflejaban cómo se mueve la nieve en relación con los esquiadores.
Además, el alcance de las acciones que un agente puede tomar es limitado. Por ejemplo, los eventos globales rápidos permiten una amplia gama de intervenciones ambientales, pero los propios agentes no lo realizan necesariamente. Además, el modelado preciso de interacciones complejas entre múltiples agentes independientes en un entorno compartido sigue siendo difícil.
Genie 3 también puede apoyar la interacción continua durante varios minutos si se necesita tiempo para el entrenamiento adecuado.
Aún así, este modelo presenta un paso atractivo para que los agentes educativos puedan planificar, explorar, buscar incertidumbre y mejorar a través de pruebas y errores, más allá de las respuestas a la entrada.
«Todavía no hemos trasladado 37 momentos a agentes materializados. En realidad podemos tomar acciones novedosas en el mundo real», dijo Parker Holder.
«Pero ahora podemos guiarte a través de una nueva era», dijo.
Source link
