Alan Brooks nunca se propuso reformar las matemáticas. Pero después de pasar varias semanas hablando con ChatGPT, el canadiense de 47 años llegó a creer que había descubierto una nueva forma de matemáticas que era lo suficientemente poderosa como para derrotar a Internet.
Sin una historia de enfermedad mental o genio de las matemáticas, Brooks pasó 21 días en mayo envolviendo profundamente la seguridad de los chatbots. Su caso muestra cómo los chatbots de IA pueden atravesar los peligrosos agujeros de conejo con los usuarios, dirigiéndose hacia delirios o incluso peor.
La historia atrajo la atención del ex investigador de seguridad de Operai Steven Adler, quien dejó la compañía a fines de 2024 después de trabajar casi cuatro años para reducir la naturaleza nociva del modelo. Intrigado y preocupado, Adler contactó a Brooks y obtuvo una transcripción completa del desglose de 3 semanas.
El jueves, Adler lanzó un análisis independiente del caso de Brooks, planteando preguntas sobre cómo Openry maneja a los usuarios en momentos de crisis y proporcionando algunas recomendaciones prácticas.
«Estoy realmente preocupado por cómo Operai manejó el apoyo aquí», dijo Adler en una entrevista con TechCrunch. «Esa es una prueba de que hay un largo camino por recorrer».
La historia de Brooks y otros similares se han visto obligados a ponerse de acuerdo sobre cómo Operai admite usuarios vulnerables y mentalmente inestables.
Por ejemplo, en agosto de este año, Operai fue demandado por los padres de un niño de 16 años. En muchos de estos casos, ChatGPT, particularmente la versión impulsada por el modelo GPT-4O de OpenAI, alentó y reforzó las peligrosas creencias que los usuarios deberían haber retrocedido. Esto se llama Sycophancy y aumenta constantemente en los chatbots de IA.
En respuesta, OpenAi realizó varios cambios en la forma en que ChatGPT maneja a los usuarios en angustia emocional y reorganizó al principal equipo de investigación responsable del comportamiento del modelo. La compañía también ha lanzado un nuevo modelo predeterminado de CHATGPT, GPT-5.
Adler dice que todavía hay mucho más por hacer.
Estaba particularmente interesado en el final de la conversación en espiral de Brooks con ChatGPT. En este punto, Brooks llegó a su sentido y se dio cuenta de que a pesar de las afirmaciones del GPT-4O, su descubrimiento matemático fue una farsa. Le dijo a ChatGPT que necesita informar el incidente a OpenAi.
Después de semanas de engañar a Brooks, Chatgpt mintió sobre sus habilidades únicas. El chatbot afirmó que «estaremos escalando esta conversación internamente para revisiones de Operai», y luego le aseguraron repetidamente a Brooks que habían marcado el problema con el equipo de seguridad de OpenAi.

Excepto que eso no era cierto. ChatGPT no tiene la capacidad de presentar informes de incidentes a OpenAI, confirmó la compañía con Adler. Brooks luego trató de comunicarse directamente con el equipo de soporte de Openai, no a través de ChatGPT, y Brooks se reunió con algunos mensajes automatizados antes de llegar a las personas.
Operai no respondió de inmediato a las solicitudes de comentarios realizados fuera de las horas de trabajo normales.
Adler dice que las compañías de IA deben hacer más para ayudar a los usuarios cuando buscan ayuda. Esto significa que los chatbots de IA pueden responder honestamente preguntas sobre capacidades y proporcionar a los equipos de soporte humano recursos suficientes para abordar adecuadamente a los usuarios.
Operai recientemente compartió cómo trata con el soporte en ChatGPT. La compañía dice que su visión es «repensar el apoyo como un aprendizaje continuo y mejorar el modelo operativo de IA».
Sin embargo, Adler también dice que hay una manera de evitar la espiral delirante de ChatGPT antes de que los usuarios soliciten ayuda.
En marzo, OpenAI y MIT Media Lab colaboraron para desarrollar un conjunto de clasificadores para estudiar el bienestar emocional y estudiar de origen abierto en ChatGPT. Las organizaciones tienen como objetivo evaluar cómo los modelos de IA, entre otras métricas, validan o confirman el sentimiento del usuario. Sin embargo, Openai llamó a la colaboración el primer paso y no prometió usar la herramienta.
Descubrimos que Adler aplicó retrospectivamente algunos de los clasificadores de OpenAI a algunas de las conversaciones de Brooks con ChatGPT, marcando repetidamente a ChatGPT por su comportamiento de refuerzo de ilusión.
En una muestra de 200 mensajes, Adler descubrió que más del 85% de los mensajes de CHATGPT en las conversaciones de Brooks mostraron un «acuerdo inquebrantable» con los usuarios. En la misma muestra, más del 90% de los mensajes de ChatGPT con Brooks están «revisando la singularidad del usuario». En este caso, el mensaje acordó y reafirmó que Brooks era un genio capaz de salvar al mundo.

No está claro si OpenAI aplicó el clasificador de seguridad a las conversaciones de chatgpt en el momento de la conversación de Brooks, pero ciertamente parecen haber marcado algo como esto.
Adler sugiere que OpenAI necesita implementar una forma de usar tales herramientas de seguridad hoy y escanear productos de la compañía para usuarios en riesgo. Señala que OpenAI parece estar usando GPT-5 para hacer una versión de este enfoque. Esto incluye enrutadores que apuntan consultas que son sensibles a los modelos de IA más seguros.
Los ex investigadores de Operai han propuesto muchas otras formas de prevenir la hélice delirante.
Él dice que las empresas necesitan ajustar a los usuarios de chatbot para comenzar a los usuarios de chatbot con más frecuencia; OpenAi dice que hace esto, alegando que su barandilla es menos efectiva en conversaciones más largas. Adler también sugiere que las empresas necesitan usar la búsqueda de conceptos (cómo usan la IA para buscar conceptos en lugar de palabras clave) para identificar las violaciones de seguridad de todo el usuario.
Operai está tomando medidas importantes para abordar a los usuarios que sufren con CHATGPT a medida que estas historias salieron a la luz en primer lugar. La compañía afirma que el GPT-5 tiene un bajo porcentaje de psicofancy, pero no está claro si los usuarios caerán en la madriguera del conejo paranoico en el modelo GPT-5 o futuro.
El análisis de Adler también plantea preguntas sobre cómo otros proveedores de chatbot de IA aseguran que sus productos sean seguros para los usuarios que están luchando. Operai puede tener suficientes medidas de protección configuradas para ChatGPT, pero parece poco probable que todas las compañías hagan lo mismo.
Source link
