Operai lanzó un nuevo punto de referencia el jueves. Esto probó el desempeño del modelo de IA en comparación con los expertos humanos en una amplia gama de industrias y empleo. Esta prueba, GDPVAL, es un intento temprano de comprender qué tan cerca están los sistemas OpenAI superan a los humanos en un trabajo económicamente valioso.
Operai dice que ha descubierto que el modelo GPT-5 y Claude Opus 4.1 de Anthrope «ya se están acercando a la calidad del trabajo producido por expertos de la industria».
Eso no significa que los modelos de OpenAI pronto comenzarán el cambio humano en el trabajo. A pesar de las predicciones de algunos CEO que IA asumirá el trabajo humano en solo unos años, Openai reconoce que GDPVAL cubre un número muy limitado de tareas que las personas hoy realizan en el trabajo real. Sin embargo, esta es una de las últimas formas en que las empresas miden el progreso de la IA hacia este hito.
GDPVAL se basa en nueve industrias que más contribuyen al producto interno bruto de los Estados Unidos, incluidos dominios como la atención médica, las finanzas, la fabricación y el gobierno. Este punto de referencia prueba el rendimiento de los modelos de IA en 44 ocupaciones en estas industrias, desde ingenieros de software hasta enfermeras y periodistas.
Para la primera versión de OpenAI, GDPVAL-V0, OpenAI pidió a los expertos experimentados que compararan informes de generación de IA con informes generados por otros expertos y seleccionen el mejor informe. Por ejemplo, le pedimos a un banquero rápido y rápido que creara un panorama de la competencia para la industria de entrega de la última milla y los comparara con los informes de generación de IA. OpenAi luego promedia la «tasa ganadora» del modelo AI para informes humanos en las 44 ocupaciones.
Para GPT-5, una versión de sopa de GPT-5 de GPT-5-High, para GPT-5 con potencia informática adicional, la compañía dice que el modelo AI se clasificó a la par con los expertos de la industria en el 40.6% del tiempo.
Operai también probó el modelo de humanidad Claude Opus 4.1. Esto se clasificó a la par con los expertos de la industria con el 49% de las tareas. Operai dice que cree que Claude obtuvo un puntaje muy alto porque tiende a hacer gráficos divertidos en lugar de rendimiento.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025

Vale la pena señalar que la mayoría de los profesionales que trabajan hacen más que enviar informes de investigación a su jefe, que es todo sobre la prueba GDPVAL-V0. Openai reconoce esto y dice que planea crear pruebas más sólidas en el futuro que puedan explicar más industrias y flujos de trabajo interactivos.
Sin embargo, la compañía considera que vale la pena señalar el progreso de GDPVAL.
En una entrevista con TechCrunch, el economista jefe de Openi, el Dr. Aaron Chatterji, dijo que los resultados de GDPVAL sugieren que las personas en estos trabajos pueden pasar tiempo usando modelos de IA para gastar tareas más significativas.
«(Porque) el modelo está mejorando con algunas de estas cosas», dice Chatterji.
En la evaluación de Operai, Tejal Patwardhan le dijo a TechCrunch que fue alentado por la tasa de progreso de GDPVal. El modelo GPT-4O de OpenAI ganó el 13.7% (victoria y fianza con humanos), liberado hace unos 15 meses. Actualmente, el GPT-5 ha anotado casi tres veces el puntaje.
Silicon Valley tiene una amplia gama de puntos de referencia utilizados para medir el progreso de los modelos de IA y evaluar si un modelo particular es de vanguardia. Los más populares son AIME 2025 (prueba de problemas matemáticos competitivos) y GPQA Diamond (pruebas de preguntas de ciencias a nivel de doctorado). Sin embargo, algunos modelos de IA se están acercando a la saturación con algunos de estos puntos de referencia, y muchos investigadores de IA han citado la necesidad de mejores pruebas que puedan medir el dominio de la IA con respecto a las tareas reales.
Los puntos de referencia como GDPVAL pueden volverse cada vez más importantes en esa conversación, ya que Operai afirma que los modelos de IA son valiosos para una amplia gama de industrias. Sin embargo, Openai establece claramente que se requieren pruebas de una versión más completa, y que su modelo de IA puede ser superior a los humanos.
Source link
