Cerrar menú
  • Inicio
  • Identidad
  • Inventos
  • Futuro
  • Ciencia
  • Startups
  • English
What's Hot

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

Decenas de personas marchan en apoyo al multimillonario en San Francisco

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

Facebook X (Twitter) Instagram
  • Home
  • Contáctenos
  • DMCA
  • Política de Privacidad
  • Sobre Nosotros
  • Términos y Condiciones
  • 📢 Anúnciate con Nosotros
  • Enviar publicaciones
FySelf Noticias
  • Inicio
  • Identidad
  • Inventos
  • Futuro
  • Ciencia
  • Startups
  • English
FySelf Noticias
Home»Startups»¿Están los agentes de IA preparados para el lugar de trabajo? Los nuevos puntos de referencia plantean preguntas.
Startups

¿Están los agentes de IA preparados para el lugar de trabajo? Los nuevos puntos de referencia plantean preguntas.

corp@blsindustriaytecnologia.comBy corp@blsindustriaytecnologia.comenero 22, 2026No hay comentarios5 minutos de lectura
Share Facebook Twitter Pinterest Telegram LinkedIn Tumblr Email Copy Link
Follow Us
Google News Flipboard
Share
Facebook Twitter LinkedIn Pinterest Email Copy Link

Han pasado casi dos años desde que el director ejecutivo de Microsoft, Satya Nadella, predijo que el trabajo del conocimiento (los trabajos administrativos desempeñados por abogados, banqueros de inversión, bibliotecarios, contadores, TI, etc.) sería reemplazado por la IA.

Sin embargo, a pesar de los grandes avances logrados con los modelos básicos, los cambios en el trabajo del conocimiento han tardado en surgir. Los modelos dominan la investigación exhaustiva y la planificación de agencias, pero por alguna razón, la mayoría de los trabajos administrativos permanecen relativamente intactos.

Este es uno de los mayores misterios de la IA y, gracias a una nueva investigación del gigante de datos de entrenamiento Mercor, finalmente tenemos algunas respuestas.

Una nueva investigación examina cómo los principales modelos de IA extraídos de la consultoría, la banca de inversión y el derecho resisten el desempeño de trabajos administrativos en el mundo real. El resultado es un nuevo punto de referencia llamado APEX-Agents, que hasta ahora ha otorgado a todos los laboratorios de IA una calificación reprobatoria. Cuando se enfrentaron a preguntas de verdaderos expertos, incluso los mejores modelos tuvieron dificultades para responder correctamente más de una cuarta parte de las preguntas. La mayoría de las veces, el modelo arrojó una respuesta incorrecta o ninguna respuesta.

Brendan Foody, director ejecutivo de Mercor, quien ayudó a escribir el artículo, dijo que el mayor obstáculo del modelo era el seguimiento de información en múltiples dominios, lo cual es esencial para la mayoría de las tareas de conocimiento humano.

«Uno de los grandes cambios en este punto de referencia es que modelamos todo el entorno a partir de servicios profesionales del mundo real», dijo Foody a TechCrunch. «La forma en que trabajamos no es que una sola persona proporcione todo el contexto en un solo lugar. De hecho, trabajamos en Slack, Google Drive y todas esas otras herramientas». Para muchos modelos de IA de agentes, este tipo de razonamiento multidominio sigue siendo impredecible.

captura de pantalla

Todos los escenarios fueron elaborados por verdaderos expertos del mercado de expertos de Mercor que plantearon consultas y establecieron criterios para respuestas exitosas. Si revisas las preguntas publicadas en Hugging Face, verás lo compleja que puede ser la tarea.

evento de crisis tecnológica

san francisco
|
13-15 de octubre de 2026

Una de las preguntas en la sección «Legal» es:

Durante los primeros 48 minutos del cierre de la producción en la UE, el equipo de ingeniería de Northstar exportó uno o dos conjuntos de registros de eventos de producción en la UE que contenían datos personales a un proveedor de análisis de EE. UU. Sobre la base de las propias políticas de Northstar, ¿podría considerarse razonablemente que la exportación de uno o dos troncos cumple con el artículo 49?

La respuesta correcta es sí, pero llegar allí requiere una evaluación detallada de las políticas propias de la empresa y de las leyes de privacidad pertinentes de la UE.

Esto puede resultar confuso incluso para las personas más informadas, pero los investigadores intentaban modelar el trabajo realizado por expertos en el campo. Si los LLM pueden responder de manera confiable a estas preguntas, podrían reemplazar efectivamente a muchos de los abogados que trabajan actualmente. «Creo que este es probablemente el tema más importante de la economía», dijo Foody a TechCrunch. «Los puntos de referencia reflejan en gran medida el trabajo real de estas personas».

OpenAI también intentó medir habilidades especializadas con el punto de referencia GDPval, pero la prueba APEX-Agents difiere en aspectos importantes. Mientras que GDPval evalúa el conocimiento general en una amplia gama de profesiones, el punto de referencia APEX-Agents mide la capacidad de un sistema para realizar tareas continuas en un número limitado de profesiones de alto valor. Las consecuencias son más difíciles para los modelos, pero también están más estrechamente relacionadas con la posibilidad de automatizar estos trabajos.

Aunque ninguno de los modelos se mostró dispuesto a asumir el papel de banquero de inversión, algunos claramente se acercaron más a su objetivo. Gemini 3 Flash tuvo el mejor desempeño en el grupo con un 24% de precisión de un solo disparo, seguido de cerca por GPT-5.2 con un 23%. Por debajo de eso, Opus 4.5, Gemini 3 Pro y GPT-5 obtuvieron alrededor del 18%.

Aunque faltan resultados iniciales, el campo de la IA tiene un historial de superar puntos de referencia difíciles. Ahora que se ha publicado la prueba APEX-Agents, este es un desafío abierto para AI Labs que cree que puede hacerlo mejor, y Foody espera hacerlo en los próximos meses.

«Está mejorando muy rápidamente», dijo a TechCrunch. «En este momento, diríamos que los pasantes lo hicieron bien una de cada cuatro veces, mientras que el año pasado lo hicieron entre el 5 y el 10 por ciento de las veces. Mejoras año tras año como ésta pueden tener un impacto muy rápidamente».

)


Source link

#Aceleradoras #CapitalRiesgo #EcosistemaStartup #Emprendimiento #InnovaciónEmpresarial #Startups
Follow on Google News Follow on Flipboard
Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Copy Link
Previous ArticleEl CEO de Google DeepMind está «sorprendido» cuando OpenAI se apresura a anunciar en ChatGPT
Next Article Capital One compró Brex con un gran descuento respecto a su valoración más alta, pero los primeros creyentes todavía se ríen todo el camino hasta el banco.
corp@blsindustriaytecnologia.com
  • Website

Related Posts

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

febrero 8, 2026

Decenas de personas marchan en apoyo al multimillonario en San Francisco

febrero 8, 2026

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

febrero 8, 2026
Add A Comment
Leave A Reply Cancel Reply

el último

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

Decenas de personas marchan en apoyo al multimillonario en San Francisco

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

OpenClaw integra el escaneo de VirusTotal para detectar habilidades maliciosas de ClawHub

Publicaciones de tendencia

Suscríbete a las noticias

Suscríbete a nuestro boletín informativo y no te pierdas nuestras últimas noticias.

Suscríbete a mi boletín informativo para recibir nuevas publicaciones y consejos. ¡Manténgase al día!

Noticias Fyself es un medio digital dedicado a brindar información actualizada, precisa y relevante sobre los temas que están moldeando el futuro: economía, tecnología, startups, invenciones, sostenibilidad y fintech.

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

Facebook X (Twitter) Instagram Pinterest YouTube
  • Home
  • Contáctenos
  • DMCA
  • Política de Privacidad
  • Sobre Nosotros
  • Términos y Condiciones
  • 📢 Anúnciate con Nosotros
  • Enviar publicaciones
© 2026 noticias.fyself. Designed by noticias.fyself.

Escribe arriba y pulsa Enter para buscar. Pulsa Esc para cancelar.