El jueves, OpenAI lanzó GPT-5.4. Se trata de un nuevo modelo básico que se promociona como «el modelo de frontera más capaz y eficiente para el trabajo profesional». Además de la versión estándar, GPT-5.4 también está disponible como modelo de inferencia (GPT-5.4 Thinking) o modelo optimizado para alto rendimiento (GPT-5.4 Pro).
La versión API de este modelo estará disponible en una ventana contextual de 1 millón de tokens, la ventana contextual más grande jamás disponible en OpenAI.
OpenAI también afirmó que GPT-5.4 pudo resolver el mismo problema con muchos menos tokens que su predecesor, destacando la eficiencia mejorada de los tokens.
El nuevo modelo ofrece resultados comparativos significativamente mejorados, incluidas puntuaciones récord en los análisis comparativos de uso de computadoras OSWorld-Verified y WebArena Verified. El nuevo modelo también logró una puntuación récord del 83% en la prueba GDPval de OpenAI para tareas de trabajo de conocimiento.
GPT-5.4 también lideró el índice de referencia APEX-Agents de Mercor, diseñado para evaluar habilidades profesionales en derecho y finanzas, según un comunicado del director ejecutivo de Mercor, Brendan Foody.
«(GPT-5.4) se destaca en la creación de resultados a largo plazo, como presentaciones de diapositivas, modelos financieros y análisis legales, ofreciendo el mejor rendimiento mientras se ejecuta más rápido y a menor costo que los modelos Frontier de la competencia», dijo Foody en un comunicado.
GPT-5.4 continúa los esfuerzos de la compañía para limitar las alucinaciones y los errores factuales. OpenAI dijo que el nuevo modelo tenía un 33% menos de probabilidades de tener un error en reclamos individuales y un 18% menos de probabilidades de tener un error en la respuesta general en comparación con GPT 5.2.
evento de crisis tecnológica
San Francisco, California
|
13-15 de octubre de 2026
Como parte del lanzamiento, OpenAI revisó la forma en que la versión API GPT-5.4 administra las llamadas a herramientas e introdujo un nuevo sistema llamado Búsqueda de herramientas. Anteriormente, el mensaje del sistema presentaba las definiciones de todas las herramientas disponibles al llamar a un modelo, pero este proceso podía consumir grandes cantidades de tokens a medida que aumentaba la cantidad de herramientas disponibles. El nuevo sistema permite a los modelos buscar definiciones de herramientas bajo demanda, lo que hace que las solicitudes sean más rápidas y económicas en sistemas con muchas herramientas disponibles.
OpenAI también incluye nuevas evaluaciones de seguridad para probar la cadena de pensamiento de sus modelos. Este es un comentario continuo proporcionado por el modelo para demostrar el proceso de pensamiento a través de una tarea de varios pasos. Los investigadores de seguridad de la IA llevan mucho tiempo preocupados de que los modelos de inferencia puedan tergiversar la cadena de pensamiento de una IA, y las pruebas han demostrado que, en las circunstancias adecuadas, esto puede suceder.
Una nueva evaluación de OpenAI muestra que es menos probable que ocurra engaño en la versión Thinking de GPT-5.4, «lo que sugiere que el modelo carece de la capacidad de ocultar inferencias y que el monitoreo de CoT sigue siendo una herramienta de seguridad eficaz».
Source link
