El nuevo modelo Images 2.0 de ChatGPT es increíblemente bueno para generar texto

Solía ser fácil distinguir entre imágenes creadas por humanos e imágenes generadas por IA. Hace apenas dos años, no se podían utilizar modelos de imágenes para crear el menú de un restaurante mexicano sin inventar nuevos platos como «entuitas», «churillos», «burtos» y «margartas».

Ahora, si le pide al nuevo modelo ChatGPT Images 2.0 que cree un menú mexicano, creará algo que su restaurante podrá usar de inmediato sin que sus clientes sepan que algo anda mal. (Sin embargo, por un ceviche de $13,50, podrías cuestionar la calidad del pescado).

Crédito de la imagen: ChatGPT Imagen 2.0

A modo de comparación, aquí están los resultados que obtuve de DALL-E 3 hace dos años (ChatGPT no generaba imágenes en ese entonces).

Crédito de la imagen: Microsoft Designer (DALL-E 3)

Históricamente, los generadores de imágenes de IA han tenido dificultades para explicarse, ya que comúnmente utilizaban modelos de difusión que funcionaban reconstruyendo imágenes a partir del ruido.

Asmelash Teka Hadgu, fundador y director ejecutivo de Lesan AI, dijo a TechCrunch en 2024 que «los modelos de difusión (…) están reconstruyendo la información que se les proporciona». «Se puede suponer que la escritura en la imagen es una porción muy pequeña, por lo que el generador de imágenes aprende patrones que cubren más de estos píxeles».

Desde entonces, los investigadores han investigado otros mecanismos de generación de imágenes, como los modelos autorregresivos que predicen cómo debería verse una imagen y funcionan como LLM.

Desafortunadamente, OpenAI se negó a responder preguntas sobre el tipo de modelo que impulsa ChatGPT Images 2.0 en una conferencia de prensa esta semana.

evento de crisis tecnológica

San Francisco, California
|
13-15 de octubre de 2026

Pero la compañía dijo que el nuevo modelo tiene «capacidades de pensamiento» que le permiten buscar en la web, crear múltiples imágenes a partir de un solo mensaje y verificar dos veces lo que ha creado. Esto permite a Images 2.0 crear recursos de marketing de varios tamaños, así como cómics de varios paneles.

OpenAI también dice que Images comprende mejor la representación de texto en idiomas no latinos como japonés, coreano, hindi y bengalí. El conocimiento de este modelo finalizará en diciembre de 2025, lo que podría afectar la precisión con la que puede generar indicaciones específicas sobre noticias recientes.

«Images 2.0 aporta un nivel sin precedentes de especificidad y fidelidad a la creación de imágenes. No sólo puedes conceptualizar imágenes más sofisticadas, sino también realizar esa visión de manera efectiva, siguiendo instrucciones, preservando los detalles solicitados y renderizando elementos detallados que a menudo rompen los modelos de imágenes (como texto pequeño, iconografía, elementos de interfaz de usuario, composición densa, restricciones estilísticas sutiles, etc.), todo con una resolución de hasta 2K», dijo OpenAI en un comunicado de prensa.

Estas características significan que, si bien la generación de imágenes no es tan rápida como escribir una pregunta en ChatGPT, solo lleva unos minutos generar algo tan complejo como un cómic de varios paneles.

Todos los usuarios de ChatGPT y Codex tendrán acceso a Images 2.0 a partir del martes. Los usuarios pagos podrán generar resultados más avanzados. La empresa también ofrecerá una API gpt-image-2, cuyo precio dependerá de la calidad y la resolución de la salida.

Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.

Source link

What's Hot

La falla del sandbox de Cohere AI Terrarium permite la ejecución del código raíz y el escape del contenedor

La Universidad de Oulu construye el futuro de la asociación entre humanos y IA

SpaceX está trabajando con Cursor y tiene la opción de adquirir la startup por 60 mil millones de dólares

El nuevo modelo Images 2.0 de ChatGPT es increíblemente bueno para generar texto

SpaceX está trabajando con Cursor y tiene la opción de adquirir la startup por 60 mil millones de dólares

Tim Cook dimite como director ejecutivo de Apple: una mirada retrospectiva a sus 15 años de logros, desde nuevos productos y servicios hasta la expansión a China

John Tarnas de Apple dirigirá una de las empresas más poderosas del mundo. Ese trabajo es un campo minado.

La falla del sandbox de Cohere AI Terrarium permite la ejecución del código raíz y el escape del contenedor

La Universidad de Oulu construye el futuro de la asociación entre humanos y IA

SpaceX está trabajando con Cursor y tiene la opción de adquirir la startup por 60 mil millones de dólares

Tim Cook dimite como director ejecutivo de Apple: una mirada retrospectiva a sus 15 años de logros, desde nuevos productos y servicios hasta la expansión a China

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

El nuevo modelo Images 2.0 de ChatGPT es increíblemente bueno para generar texto

Related Posts