OpenAI lanza GPT-5.4 con versiones Pro y Thinking

El jueves, OpenAI lanzó GPT-5.4. Se trata de un nuevo modelo básico que se promociona como «el modelo de frontera más capaz y eficiente para el trabajo profesional». Además de la versión estándar, GPT-5.4 también está disponible como modelo de inferencia (GPT-5.4 Thinking) o modelo optimizado para alto rendimiento (GPT-5.4 Pro).

La versión API de este modelo estará disponible en una ventana contextual de 1 millón de tokens, la ventana contextual más grande jamás disponible en OpenAI.

OpenAI también afirmó que GPT-5.4 pudo resolver el mismo problema con muchos menos tokens que su predecesor, destacando la eficiencia mejorada de los tokens.

El nuevo modelo ofrece resultados comparativos significativamente mejorados, incluidas puntuaciones récord en los análisis comparativos de uso de computadoras OSWorld-Verified y WebArena Verified. El nuevo modelo también logró una puntuación récord del 83% en la prueba GDPval de OpenAI para tareas de trabajo de conocimiento.

GPT-5.4 también lideró el índice de referencia APEX-Agents de Mercor, diseñado para evaluar habilidades profesionales en derecho y finanzas, según un comunicado del director ejecutivo de Mercor, Brendan Foody.

«(GPT-5.4) se destaca en la creación de resultados a largo plazo, como presentaciones de diapositivas, modelos financieros y análisis legales, ofreciendo el mejor rendimiento mientras se ejecuta más rápido y a menor costo que los modelos Frontier de la competencia», dijo Foody en un comunicado.

GPT-5.4 continúa los esfuerzos de la compañía para limitar las alucinaciones y los errores factuales. OpenAI dijo que el nuevo modelo tenía un 33% menos de probabilidades de tener un error en reclamos individuales y un 18% menos de probabilidades de tener un error en la respuesta general en comparación con GPT 5.2.

evento de crisis tecnológica

San Francisco, California
|
13-15 de octubre de 2026

Como parte del lanzamiento, OpenAI revisó la forma en que la versión API GPT-5.4 administra las llamadas a herramientas e introdujo un nuevo sistema llamado Búsqueda de herramientas. Anteriormente, el mensaje del sistema presentaba las definiciones de todas las herramientas disponibles al llamar a un modelo, pero este proceso podía consumir grandes cantidades de tokens a medida que aumentaba la cantidad de herramientas disponibles. El nuevo sistema permite a los modelos buscar definiciones de herramientas bajo demanda, lo que hace que las solicitudes sean más rápidas y económicas en sistemas con muchas herramientas disponibles.

OpenAI también incluye nuevas evaluaciones de seguridad para probar la cadena de pensamiento de sus modelos. Este es un comentario continuo proporcionado por el modelo para demostrar el proceso de pensamiento a través de una tarea de varios pasos. Los investigadores de seguridad de la IA llevan mucho tiempo preocupados de que los modelos de inferencia puedan tergiversar la cadena de pensamiento de una IA, y las pruebas han demostrado que, en las circunstancias adecuadas, esto puede suceder.

Una nueva evaluación de OpenAI muestra que es menos probable que ocurra engaño en la versión Thinking de GPT-5.4, «lo que sugiere que el modelo carece de la capacidad de ocultar inferencias y que el monitoreo de CoT sigue siendo una herramienta de seguridad eficaz».

Source link

What's Hot

Claude de Anthropic atrae a consumidores que pagan, un mercado propiedad de ChatGPT

La apuesta de 2.300 millones de dólares de General Intuition es que los videojuegos pueden entrenar agentes de IA del mundo real

El exjefe de IA de Databricks cree que la IA puede reducir los costos de electricidad en un factor de 1000

OpenAI lanza GPT-5.4 con versiones Pro y Thinking

Claude de Anthropic atrae a consumidores que pagan, un mercado propiedad de ChatGPT

La apuesta de 2.300 millones de dólares de General Intuition es que los videojuegos pueden entrenar agentes de IA del mundo real

El exjefe de IA de Databricks cree que la IA puede reducir los costos de electricidad en un factor de 1000

Claude de Anthropic atrae a consumidores que pagan, un mercado propiedad de ChatGPT

La apuesta de 2.300 millones de dólares de General Intuition es que los videojuegos pueden entrenar agentes de IA del mundo real

El exjefe de IA de Databricks cree que la IA puede reducir los costos de electricidad en un factor de 1000

Rippling quiere ser toda la pila de datos

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

OpenAI lanza GPT-5.4 con versiones Pro y Thinking

Related Posts