El mes pasado, escribí sobre los nuevos puntos de referencia de Mercor que miden la capacidad de los agentes de IA en tareas especializadas como derecho y análisis corporativo. Las puntuaciones en ese momento eran bastante nefastas: todos los institutos importantes obtuvieron puntuaciones inferiores al 25%. Por lo tanto, concluimos que los abogados están a salvo de la exclusión de la IA, al menos por ahora.
Pero las capacidades de la IA pueden cambiar significativamente en cuestión de semanas.
Opus 4.6 de Anthropic, lanzado esta semana, sacudió las tablas de clasificación, con el nuevo modelo de Anthropic obteniendo una puntuación de poco menos del 30% en pruebas de una sola vez y una puntuación promedio del 45% al resolver problemas. En particular, esta versión incluye una serie de nuevas funciones de agentes, incluidos «enjambres de agentes», que pueden resultar útiles para este tipo de resolución de problemas de varios pasos.
De cualquier manera, esta puntuación es un gran salto con respecto al estado del arte anterior y muestra que el progreso del modelo subyacente no se está desacelerando. El director general de Melco, Brendan Foudy, quedó especialmente impresionado y afirmó: «Pasar del 18,4% al 29,8% en cuestión de meses es una locura».

El 30 por ciento todavía está muy lejos del 100 por ciento, por lo que no tenemos que preocuparnos de que los abogados sean reemplazados por máquinas la próxima semana. Pero deberían tener mucha menos confianza que el mes pasado.
Source link
