Solía ser fácil distinguir entre imágenes creadas por humanos e imágenes generadas por IA. Hace apenas dos años, no se podían utilizar modelos de imágenes para crear el menú de un restaurante mexicano sin inventar nuevos platos como «entuitas», «churillos», «burtos» y «margartas».
Ahora, si le pide al nuevo modelo ChatGPT Images 2.0 que cree un menú mexicano, creará algo que su restaurante podrá usar de inmediato sin que sus clientes sepan que algo anda mal. (Sin embargo, por un ceviche de $13,50, podrías cuestionar la calidad del pescado).

A modo de comparación, aquí están los resultados que obtuve de DALL-E 3 hace dos años (ChatGPT no generaba imágenes en ese entonces).

Históricamente, los generadores de imágenes de IA han tenido dificultades para explicarse, ya que comúnmente utilizaban modelos de difusión que funcionaban reconstruyendo imágenes a partir del ruido.
Asmelash Teka Hadgu, fundador y director ejecutivo de Lesan AI, dijo a TechCrunch en 2024 que «los modelos de difusión (…) están reconstruyendo la información que se les proporciona». «Se puede suponer que la escritura en la imagen es una porción muy pequeña, por lo que el generador de imágenes aprende patrones que cubren más de estos píxeles».
Desde entonces, los investigadores han investigado otros mecanismos de generación de imágenes, como los modelos autorregresivos que predicen cómo debería verse una imagen y funcionan como LLM.
Desafortunadamente, OpenAI se negó a responder preguntas sobre el tipo de modelo que impulsa ChatGPT Images 2.0 en una conferencia de prensa esta semana.
evento de crisis tecnológica
San Francisco, California
|
13-15 de octubre de 2026
Pero la compañía dijo que el nuevo modelo tiene «capacidades de pensamiento» que le permiten buscar en la web, crear múltiples imágenes a partir de un solo mensaje y verificar dos veces lo que ha creado. Esto permite a Images 2.0 crear recursos de marketing de varios tamaños, así como cómics de varios paneles.
OpenAI también dice que Images comprende mejor la representación de texto en idiomas no latinos como japonés, coreano, hindi y bengalí. El conocimiento de este modelo finalizará en diciembre de 2025, lo que podría afectar la precisión con la que puede generar indicaciones específicas sobre noticias recientes.
«Images 2.0 aporta un nivel sin precedentes de especificidad y fidelidad a la creación de imágenes. No sólo puedes conceptualizar imágenes más sofisticadas, sino también realizar esa visión de manera efectiva, siguiendo instrucciones, preservando los detalles solicitados y renderizando elementos detallados que a menudo rompen los modelos de imágenes (como texto pequeño, iconografía, elementos de interfaz de usuario, composición densa, restricciones estilísticas sutiles, etc.), todo con una resolución de hasta 2K», dijo OpenAI en un comunicado de prensa.
Estas características significan que, si bien la generación de imágenes no es tan rápida como escribir una pregunta en ChatGPT, solo lleva unos minutos generar algo tan complejo como un cómic de varios paneles.
Todos los usuarios de ChatGPT y Codex tendrán acceso a Images 2.0 a partir del martes. Los usuarios pagos podrán generar resultados más avanzados. La empresa también ofrecerá una API gpt-image-2, cuyo precio dependerá de la calidad y la resolución de la salida.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
