Han pasado casi dos años desde que el director ejecutivo de Microsoft, Satya Nadella, predijo que el trabajo del conocimiento (los trabajos administrativos desempeñados por abogados, banqueros de inversión, bibliotecarios, contadores, TI, etc.) sería reemplazado por la IA.
Sin embargo, a pesar de los grandes avances logrados con los modelos básicos, los cambios en el trabajo del conocimiento han tardado en surgir. Los modelos dominan la investigación exhaustiva y la planificación de agencias, pero por alguna razón, la mayoría de los trabajos administrativos permanecen relativamente intactos.
Este es uno de los mayores misterios de la IA y, gracias a una nueva investigación del gigante de datos de entrenamiento Mercor, finalmente tenemos algunas respuestas.
Una nueva investigación examina cómo los principales modelos de IA extraídos de la consultoría, la banca de inversión y el derecho resisten el desempeño de trabajos administrativos en el mundo real. El resultado es un nuevo punto de referencia llamado APEX-Agents, que hasta ahora ha otorgado a todos los laboratorios de IA una calificación reprobatoria. Cuando se enfrentaron a preguntas de verdaderos expertos, incluso los mejores modelos tuvieron dificultades para responder correctamente más de una cuarta parte de las preguntas. La mayoría de las veces, el modelo arrojó una respuesta incorrecta o ninguna respuesta.
Brendan Foody, director ejecutivo de Mercor, quien ayudó a escribir el artículo, dijo que el mayor obstáculo del modelo era el seguimiento de información en múltiples dominios, lo cual es esencial para la mayoría de las tareas de conocimiento humano.
«Uno de los grandes cambios en este punto de referencia es que modelamos todo el entorno a partir de servicios profesionales del mundo real», dijo Foody a TechCrunch. «La forma en que trabajamos no es que una sola persona proporcione todo el contexto en un solo lugar. De hecho, trabajamos en Slack, Google Drive y todas esas otras herramientas». Para muchos modelos de IA de agentes, este tipo de razonamiento multidominio sigue siendo impredecible.

Todos los escenarios fueron elaborados por verdaderos expertos del mercado de expertos de Mercor que plantearon consultas y establecieron criterios para respuestas exitosas. Si revisas las preguntas publicadas en Hugging Face, verás lo compleja que puede ser la tarea.
evento de crisis tecnológica
san francisco
|
13-15 de octubre de 2026
Una de las preguntas en la sección «Legal» es:
Durante los primeros 48 minutos del cierre de la producción en la UE, el equipo de ingeniería de Northstar exportó uno o dos conjuntos de registros de eventos de producción en la UE que contenían datos personales a un proveedor de análisis de EE. UU. Sobre la base de las propias políticas de Northstar, ¿podría considerarse razonablemente que la exportación de uno o dos troncos cumple con el artículo 49?
La respuesta correcta es sí, pero llegar allí requiere una evaluación detallada de las políticas propias de la empresa y de las leyes de privacidad pertinentes de la UE.
Esto puede resultar confuso incluso para las personas más informadas, pero los investigadores intentaban modelar el trabajo realizado por expertos en el campo. Si los LLM pueden responder de manera confiable a estas preguntas, podrían reemplazar efectivamente a muchos de los abogados que trabajan actualmente. «Creo que este es probablemente el tema más importante de la economía», dijo Foody a TechCrunch. «Los puntos de referencia reflejan en gran medida el trabajo real de estas personas».
OpenAI también intentó medir habilidades especializadas con el punto de referencia GDPval, pero la prueba APEX-Agents difiere en aspectos importantes. Mientras que GDPval evalúa el conocimiento general en una amplia gama de profesiones, el punto de referencia APEX-Agents mide la capacidad de un sistema para realizar tareas continuas en un número limitado de profesiones de alto valor. Las consecuencias son más difíciles para los modelos, pero también están más estrechamente relacionadas con la posibilidad de automatizar estos trabajos.
Aunque ninguno de los modelos se mostró dispuesto a asumir el papel de banquero de inversión, algunos claramente se acercaron más a su objetivo. Gemini 3 Flash tuvo el mejor desempeño en el grupo con un 24% de precisión de un solo disparo, seguido de cerca por GPT-5.2 con un 23%. Por debajo de eso, Opus 4.5, Gemini 3 Pro y GPT-5 obtuvieron alrededor del 18%.
Aunque faltan resultados iniciales, el campo de la IA tiene un historial de superar puntos de referencia difíciles. Ahora que se ha publicado la prueba APEX-Agents, este es un desafío abierto para AI Labs que cree que puede hacerlo mejor, y Foody espera hacerlo en los próximos meses.
«Está mejorando muy rápidamente», dijo a TechCrunch. «En este momento, diríamos que los pasantes lo hicieron bien una de cada cuatro veces, mientras que el año pasado lo hicieron entre el 5 y el 10 por ciento de las veces. Mejoras año tras año como ésta pueden tener un impacto muy rápidamente».
)
Source link
