La humanidad dice que algunos modelos de Claude pueden terminar con conversaciones «dañinas o abusivas»

Anthrope ha anunciado una nueva característica que permite que algunos de los modelos más grandes terminen las conversaciones que la compañía describe como «un caso raro y extremo de interacción de usuario permanentemente dañina o abusiva». Sorprendentemente, los humanos dicen que hacen esto para no proteger a los usuarios humanos, sino para proteger el modelo de IA en sí.

Para ser claros, la compañía no argumenta que el modelo Claude AI puede ser perceptivo o herido por las conversaciones con los usuarios. En sus propias palabras, la humanidad sigue siendo «muy incierta sobre los estados morales potenciales de Claude y otros LLM, o sobre los estados morales potenciales actuales o futuros».

Sin embargo, el anuncio apunta a un programa reciente creado para estudiar lo que se llama «bienestar modelo», diciendo que la humanidad esencialmente está adoptando un enfoque justo en el caso.

Este último cambio se limita actualmente a Claude Opus 4 y 4.1. Una vez más, debería ocurrir en «casos de borde extremo», como «solicitudes de usuarios de contenido sexual, incluidos menores, o intentos de solicitar información que permita la violencia a gran escala y los actos de miedo».

Si bien este tipo de solicitudes podrían crear problemas legales o publicitarios para la humanidad misma (presenciar un informe reciente sobre cómo ChatGPT potencialmente mejora o contribuye al pensamiento paranoico de los usuarios), la compañía declaró que las pruebas de desarrollo previo «mostraron una» fuerte preferencia «en respuesta a estas solicitudes y la» angustia atractiva de los patrones «.

Con respecto a estas nuevas características de fin de conversación, la compañía dijo: «En todos los casos, dice Claude, utilizando la capacidad de terminar la conversación como último recurso solo si múltiples intentos de redirección fallan y sus esperanzas de una interacción productiva se agotan, o si el usuario desea explícitamente claudarse para terminar el chat».

La humanidad también afirma que Claude tiene «instrucciones de no usar esta capacidad cuando los usuarios corren el riesgo inmediato de lastimarse a sí mismos y a los demás».

Eventos de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Una vez que Claude termina una conversación, la humanidad afirma que los usuarios pueden comenzar una nueva conversación desde la misma cuenta y editar respuestas para crear una nueva rama de una conversación problemática.

«Tratamos esta característica como un experimento continuo y continuaremos mejorando nuestro enfoque», dice la compañía.

Source link

What's Hot

Cómo los principales CISO pueden superar el agotamiento y acelerar el MTTR sin contratar más personas

Energía eólica marina europea para una industria siderúrgica competitiva en la UE

El gusano TeamPCP explota la infraestructura de la nube para construir infraestructura criminal

La humanidad dice que algunos modelos de Claude pueden terminar con conversaciones «dañinas o abusivas»

Bueno, estoy un poco menos enojado por el proyecto de IA «Magnificent Ambersons»

Decenas de personas marchan en apoyo al multimillonario en San Francisco

Desde Svedka hasta Anthropic, las marcas están aprovechando audazmente la IA en sus anuncios del Super Bowl

Cómo los principales CISO pueden superar el agotamiento y acelerar el MTTR sin contratar más personas

Energía eólica marina europea para una industria siderúrgica competitiva en la UE

El gusano TeamPCP explota la infraestructura de la nube para construir infraestructura criminal

BeyondTrust corrige una vulnerabilidad crítica de RCE previa a la autenticación en soporte remoto y PRA

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

La humanidad dice que algunos modelos de Claude pueden terminar con conversaciones «dañinas o abusivas»

Related Posts