En la primera reunión de desarrolladores el jueves, Humanity lanzó dos nuevos modelos de IA con los mejores reclamos de inicio de la industria, al menos en términos de cómo obtienen puntajes de referencia populares.
Claude Opus 4 y Claude Sonnet 4 son parte del nuevo modelo de familia Claude 4 de la Humanidad, lo que le permite analizar grandes conjuntos de datos, realizar desafíos a largo plazo y realizar acciones complejas. Ambos modelos fueron sintonizados para funcionar bien en las tareas de programación, y la humanidad afirma que son adecuados para escribir y editar el código.
Tanto los usuarios como los usuarios de la aplicación Chatbot gratuita de la compañía pueden acceder a Sonnet 4, pero solo los usuarios pueden acceder a Opus 4 con las API de Anthrope a través de la plataforma Bedrock de Amazon y el Vertex AI de Google.
Un token es el bit de datos en bruto en los que se ejecuta el modelo AI. Un millón de tokens ascienden a aproximadamente 750,000 palabras. Se trata de 163,000 palabras más que «guerra y paz».

El modelo Claude 4 de Anthrope llega a medida que la compañía parece aumentar significativamente los ingresos. El atuendo, que supuestamente fue fundado por un ex investigador de Openy, tiene como objetivo aumentar los ingresos de $ 12 mil millones en 2027 de su pronóstico de $ 2.2 mil millones este año. Humanity recientemente cerró su línea de crédito de $ 2.5 mil millones y recaudó miles de millones de Amazon y otros inversores en previsión del aumento de los costos asociados con el desarrollo de los modelos fronterizos.
Los rivales no hacen que sea más fácil mantener la pole position en las carreras de IA. Humanity lanzó un nuevo modelo de IA insignia a principios de este año, y Claude Sonnet 3.7, junto con una herramienta de codificación de agente llamada Claude Code, está compitiendo con los competidores, incluidos OpenAI y Google, para superar a la compañía con modelos poderosos y herramientas de desarrollo patentadas.
Se está jugando a la humanidad en las tareas con Claude 4.
Cuanto más capaces se introduzcan los dos modelos hoy, el Opus 4 es, más capaces pueden mantener el «esfuerzo intensivo» en muchos pasos en el flujo de trabajo, dice la humanidad. Mientras tanto, el soneto 4, diseñado como un «intercambio de entrega» en Sonnet 3.7, ha mejorado la codificación y las matemáticas en comparación con los modelos anteriores de la humanidad, y sigue con mayor precisión las instrucciones.
La humanidad argumenta que la familia Claude 4 tiene menos probabilidades de participar en «piratería de recompensas» que el soneto 3.7. La piratería de recompensas, también conocida como Spec Game, es la acción en la que un modelo obtiene atajos y lagunas para completar una tarea.
Para ser claros, estas mejoras no traen los mejores modelos del mundo a través de ningún punto de referencia. Por ejemplo, Opus 4 derrota a Gemini 2.5 Pro y GPT-4.1 de Google Gemini 2.5 Pro y GPT-4.1 en el banco SWE con verificación de banco SWE diseñada para evaluar las capacidades de codificación del modelo, pero no puede exceder el O3 de MMMU o GPQA Diamond.

Aún así, la humanidad está liberando OPUS 4 bajo salvaguardas más estrictas, incluidos detectores de contenido dañino y defensas de ciberseguridad. En las pruebas internas, la compañía descubre que el OPUS 4 podría «aumentar significativamente» la capacidad de alguien con antecedentes de los antecedentes para adquirir, producir o desplegar productos químicos, organismos vivos o armas nucleares, alcanzando las especificaciones del modelo humano «ASL-3».
La humanidad dice que tanto el Opus 4 como el soneto 4 son modelos «híbridos». Esto permite un pensamiento extendido para reacciones cercanas y un razonamiento más profundo (que permite que la IA «inferiera» y «piense» como si entendieran estos conceptos). Con el modo de inferencia activado, el modelo puede pasar más tiempo considerando posibles soluciones a un problema particular antes de responder.
Debido al modelo, proporcionan una visión general «fácil de usar» del proceso de pensamiento, dice la humanidad. ¿Te gustaría mostrar todo? Para proteger las «ventajas competitivas» de la humanidad, la compañía admite en un borrador de la publicación de blog proporcionada a TechCrunch.
Opus 4 y Sonnet 4 pueden usar múltiples herramientas en paralelo, como motores de búsqueda e inferencia y herramientas alternativas para mejorar la calidad de sus respuestas. También puede extraer y almacenar hechos en «memoria» para manejar las tareas de manera más confiable, y construir lo que la humanidad describe como «conocimiento implícito» con el tiempo.
Para que el modelo sea más amigable para el programador, la humanidad está implementando la actualización del código Claude antes mencionado. El código Claude, que permite a los desarrolladores realizar tareas específicas directamente desde el dispositivo a través del modelo de Anthrope, se integra con el IDE y proporciona un SDK que permite a los desarrolladores conectarse a aplicaciones de terceros.
Anunciado a principios de esta semana, el Claude Code SDK permite que el código Claude se ejecute como un subproceso de un sistema operativo compatible, proporcionando una forma de construir asistentes de codificación y herramientas con alimentación de IA que aprovechen las capacidades del modelo Claude.
Anthrope ha lanzado extensiones y conectores de código Claude para el código VS de Microsoft, JetBrain y GitHub. GitHub Connector permite a los desarrolladores responder a los comentarios de los revisores etiquetando su código Claude e intenta corregir o cambiar errores en su código.
Los modelos de IA aún luchan para codificar un software de alta calidad. La IA de la generación de códigos tiende a introducir vulnerabilidades y errores de seguridad debido a debilidades en áreas como la capacidad de comprender la lógica de programación. Pero su promesa de aumentar la productividad de la codificación es impulsar la rápida adopción de empresas y desarrolladores.
Esta humanidad es muy consciente de esto y promete actualizaciones de modelos más frecuentes.
«Nos estamos moviendo a actualizaciones de modelos más frecuentes y proporcionando un flujo estable de mejora que traerá capacidades innovadoras a nuestros clientes más rápido», escribió la startup en una publicación de borrador. «Este enfoque se convertirá en vanguardia a medida que continuamos refinando y fortaleciendo nuestros modelos».
Source link