Dado que la funcionalidad del agente de envío se está convirtiendo en un elemento básico entre las empresas modelo de la Fundación, Anthropic está lanzando Claude Sonnet 5, una versión más potente, similar a un agente, del modelo mediano del Laboratorio.
«Puedes planificar, utilizar herramientas como navegadores y dispositivos, y ejecutar de forma autónoma a un nivel que requería modelos más grandes y caros hace apenas unos meses», dijo Anthropic en una publicación de blog.
Este marco refleja lo que OpenAI y Google han dicho sobre sus lanzamientos recientes. GPT-5.6 Sol de OpenAI, lanzado en versión preliminar la semana pasada, es también el modelo más parecido a un agente de la compañía hasta la fecha, lo que permite a los usuarios dividir el trabajo entre subagentes para tareas autónomas de larga duración. Gemini 3.5 Flash de Google, lanzado en mayo, se presentó como una transición de chatbots conversacionales a herramientas de agentes que planifican, construyen e iteran sobre el trabajo real con una mínima participación humana.
El discurso de Sonnet 5 confirma que las capacidades de los agentes son la nueva expectativa básica en todos los niveles de precios. El diferenciador ya no será quién puede realizar mejor el trabajo de un agente, sino qué tan barato y confiable puede realizarse el trabajo de un agente sin supervisión humana.
Sonnet 5 promete un rendimiento cercano al Opus 4.8, pero a un coste mucho menor. A partir del martes, Claude Sonnet 5 será el modelo predeterminado para los planes Free y Pro y estará disponible para todas las suscripciones.
En el lanzamiento, Sonnet 5 tendrá un precio de 2 dólares por millón de tokens de entrada y 10 dólares por millón de tokens de salida hasta el 31 de agosto, después de lo cual saltará a 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida. Esto hace que Sonnet 5 sea más barato que Opus 4.8 y que GPT-5.5 de OpenAI y Gemini 3.1 Pro de Google. (Aún es más caro que Gemini 3.5 Flash).
Anthropic dice que el nuevo modelo ofrece mejoras significativas en el rendimiento del agente, incluida la inferencia, el uso de herramientas, la codificación de software y el trabajo de conocimiento, en comparación con la versión anterior, Sonnet 4.6, lanzada en febrero.
Por ejemplo, en un punto de referencia, la puntuación de codificación del agente es del 63,2 % para Sonnet 5, en comparación con el 69,2 % para Opus 4.8 y el 58,1 % para Sonnet 4.6. En el punto de referencia Knowledge Work, Sonnet 5 en realidad superó ligeramente a Opus 4.8. Opus 4.8 es conocido por resolver con éxito los problemas más difíciles, incluido un juicio delicado y una investigación en profundidad.
«Si bien Opus 4.8 sigue siendo el modelo elegido para una mayor precisión en estas tareas, Sonnet 5 ofrece a los desarrolladores una opción de mucha mayor calidad y menor costo que la que estaba disponible anteriormente», dice Anthropic. «Entre Sonnet 5 y Opus 4.8, los usuarios pueden ajustar su nivel de esfuerzo para encontrar el equilibrio adecuado entre costo y rendimiento».
Según un evaluador citado en la publicación del blog, el Sonnet 5 también es bueno para completar tareas complejas en las que las versiones anteriores del modelo se atascarían, «comprobando su propia salida sin que se le pida explícitamente que lo haga».
«Le asignamos a Claude Sonnet 5 un trabajo de dos partes: actualizar los niveles de cuentas de Salesforce y enviar notificaciones de lanzamiento a los contactos de la empresa, y se completó de principio a fin», dijo Daniel Shepherd, ingeniero senior de Zapier, en un comunicado. «Antes nos deteníamos en el medio. Con la automatización rutinaria, esto es fácil».
En términos de seguridad, Sonnet 5 también tiene una tasa más baja de «comportamiento indeseable», como explotación y cooperación en el engaño, que las generaciones anteriores, lo que hace que su uso sea más seguro en contextos de agentes. Es bueno para rechazar solicitudes maliciosas y evitar intentos de secuestro en ataques de inyección rápida. También alucinan y actúan aduladores a un ritmo menor que en el Soneto 4.6.
Dicho esto, no está al mismo nivel que Opus 4.8 o Claude Mythos Preview cuando se trata de comportamiento inconsistente. «Las evaluaciones también muestran que es mucho menos capaz de realizar tareas de ciberseguridad riesgosas que el modelo Opus actual», se lee en la publicación del blog.
El cofundador de Lovable, Fabian Hedin, dijo en un comunicado que Claude Sonnet 5 «rechaza clara y sistemáticamente solicitudes inseguras».
«En Lovable, ponemos una poderosa herramienta en manos de millones de constructores», dice Hedin. «El modelo que sabes cuándo decir no es tan importante como el modelo que sabes construir».
Se actualizó para corregir que a partir del 31 de agosto, el precio de los tokens de salida será de $15 por millón de tokens de salida.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
