Las compañías de IA están luchando para dominar la industria, pero a veces también están luchando en los gimnasios de Pokémon.
Como Google y Humanity están estudiando cómo los modelos modernos de IA navegan por los primeros juegos de Pokémon, los resultados pueden ser tan interesantes como esclarecedores. Esta vez, Google Deepmind escribe en un informe que el Gemini 2.5 Pro depende del pánico cuando Pokémon se acerca a la muerte. Esto significa que el rendimiento de la IA, según el informe, puede experimentar «degradación cualitativamente observable en la capacidad de inferencia del modelo».
Los puntos de referencia de IA, o el proceso de comparación del rendimiento de los diferentes modelos de IA, son arte sospechoso que proporciona poco contexto para la funcionalidad real de un modelo particular. Sin embargo, algunos investigadores creen que puede ser útil estudiar cómo los modelos de IA juegan videojuegos (o al menos una especie de divertido).
En los últimos meses, dos desarrolladores no relacionados de Google y Humanidad han establecido sus propias corrientes de contracción, llamadas «Géminis Plays Pokémon» y «Claude Plays Pokémon».
Cada flujo muestra el proceso de «inferencia» de la IA, o una traducción del lenguaje natural de cómo la IA evalúa el problema y alcanza la respuesta. Da una idea de cómo funcionan estos modelos.

El progreso de estos modelos de IA es impresionante, pero todavía no soy muy bueno para jugar Pokémon. Se necesitan cientos de horas a través de un juego que un Géminis puede completar en un tiempo exponencialmente corto.
Lo interesante de ver a Ai navegar los juegos de Pokémon no es el momento de completar, sino cómo se comporta en el camino.
«En el proceso de juego, el Gemini 2.5 Pro cae en una variedad de situaciones y simula el ‘pánico’ en el modelo», dice el informe.
Este estado de «pánico» puede causar un deterioro en el rendimiento del modelo, ya que AI puede dejar de usar de repente ciertas herramientas que son gratuitas para un conjunto de juego. La IA no piensa ni experimenta emociones, pero sus acciones imitan la forma en que los humanos hacen pobres y apuran las decisiones bajo estrés.
«Este comportamiento ocurrió en suficientes instancias individuales lo suficiente como para que los miembros de Twitch Chat tenían conscientes activamente cuando ocurrían», dice el informe.
Claude también mostró un comportamiento extraño en su viaje a través de Kant. En un ejemplo, AI asumió el patrón en el que una vez que todos los Pokémon han agotado su salud, el personaje del jugador se «apagan» y regresa al Centro de Pokémon.
Cuando Claude se atasca en Moon Cave Mountain, planteó la hipótesis de que si decepciona intencionalmente a todos sus Pokémon, se transportará a través de la cueva al centro de Pokémon de la próxima ciudad.
Pero no es así como funciona el juego. Cuando todos los Pokémon mueran, regresará, no geográficamente, no el más cercano al Centro Pokémon recientemente utilizado. Los espectadores estaban mirando con horror mientras la IA esencialmente intentaba suicidarse en el juego.
A pesar de sus inconvenientes, hay varias formas en que AI es mejor que los jugadores humanos. En el momento del lanzamiento de Gemini 2.5 Pro, AI puede resolver rompecabezas con una precisión impresionante.
La IA, con la ayuda de varios seres humanos, creó una herramienta de agente, provocó una instancia de Gemini 2.5 Pro para una tarea específica, resolvió el rompecabezas del juego y encontró una ruta eficiente para llegar a su destino.
«Simplemente explicando la física de Boulder y cómo verificar las rutas válidas, el Gemini 2.5 Pro puede tomar una foto de algunos de estos rompecabezas complejos de rocas necesarias para ir a la ruta ganadora», dice el informe.
Gemini 2.5 Pro hizo mucho trabajo para crear estas herramientas por su cuenta, por lo que Google teoriza que los modelos actuales pueden crear estas herramientas sin intervención humana. Quizás Géminis se tratará a crear un módulo de «no entrar en pánico».
Source link
