Anthrope ha anunciado una nueva característica que permite que algunos de los modelos más grandes terminen las conversaciones que la compañía describe como «un caso raro y extremo de interacción de usuario permanentemente dañina o abusiva». Sorprendentemente, los humanos dicen que hacen esto para no proteger a los usuarios humanos, sino para proteger el modelo de IA en sí.
Para ser claros, la compañía no argumenta que el modelo Claude AI puede ser perceptivo o herido por las conversaciones con los usuarios. En sus propias palabras, la humanidad sigue siendo «muy incierta sobre los estados morales potenciales de Claude y otros LLM, o sobre los estados morales potenciales actuales o futuros».
Sin embargo, el anuncio apunta a un programa reciente creado para estudiar lo que se llama «bienestar modelo», diciendo que la humanidad esencialmente está adoptando un enfoque justo en el caso.
Este último cambio se limita actualmente a Claude Opus 4 y 4.1. Una vez más, debería ocurrir en «casos de borde extremo», como «solicitudes de usuarios de contenido sexual, incluidos menores, o intentos de solicitar información que permita la violencia a gran escala y los actos de miedo».
Si bien este tipo de solicitudes podrían crear problemas legales o publicitarios para la humanidad misma (presenciar un informe reciente sobre cómo ChatGPT potencialmente mejora o contribuye al pensamiento paranoico de los usuarios), la compañía declaró que las pruebas de desarrollo previo «mostraron una» fuerte preferencia «en respuesta a estas solicitudes y la» angustia atractiva de los patrones «.
Con respecto a estas nuevas características de fin de conversación, la compañía dijo: «En todos los casos, dice Claude, utilizando la capacidad de terminar la conversación como último recurso solo si múltiples intentos de redirección fallan y sus esperanzas de una interacción productiva se agotan, o si el usuario desea explícitamente claudarse para terminar el chat».
La humanidad también afirma que Claude tiene «instrucciones de no usar esta capacidad cuando los usuarios corren el riesgo inmediato de lastimarse a sí mismos y a los demás».
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
Una vez que Claude termina una conversación, la humanidad afirma que los usuarios pueden comenzar una nueva conversación desde la misma cuenta y editar respuestas para crear una nueva rama de una conversación problemática.
«Tratamos esta característica como un experimento continuo y continuaremos mejorando nuestro enfoque», dice la compañía.
Source link
