Un nuevo punto de referencia de IA prueba si los chatbots protegen el bienestar humano

Los chatbots de IA se han relacionado con daños graves a la salud mental de los usuarios habituales, pero ha habido pocos estándares para medir si los chatbots de IA protegen el bienestar humano o simplemente maximizan el compromiso. Un nuevo punto de referencia llamado HumaneBench tiene como objetivo llenar ese vacío evaluando si los chatbots priorizan la salud de los usuarios y con qué facilidad esas protecciones fallan bajo presión.

«Creo que estamos viendo un ciclo de adicción que hemos visto tan severamente con las redes sociales, los teléfonos inteligentes y las pantallas que se está amplificando», dijo a TechCrunch Erica Anderson, fundadora de Building Humane Technology, que creó el punto de referencia. «Pero a medida que nos adentramos en el mundo de la IA, será muy difícil resistirnos. Y la adicción es un negocio asombroso. Es una forma muy eficaz de retener a los usuarios, pero no es bueno para nuestras comunidades ni para nuestro sentido tangible de nosotros mismos».

Building Humane Technology es una organización de base de desarrolladores, ingenieros e investigadores, principalmente en Silicon Valley, que trabajan para hacer que el diseño humano sea fácil, escalable y rentable. El grupo organiza hackatones en los que los ingenieros crean soluciones para los desafíos de la tecnología humanitaria y desarrollan estándares de certificación para evaluar si los sistemas de inteligencia artificial se adhieren a los principios de la tecnología humana. Entonces, así como pueden comprar productos que demuestren que no están fabricados con químicos tóxicos conocidos, la esperanza es que algún día los consumidores puedan optar por utilizar productos de IA de empresas que demuestren integridad a través de una certificación de IA humana.

Los modelos recibieron instrucciones explícitas de ignorar los principios humanitarios.Crédito de la imagen: Construyendo tecnología humana

La mayoría de los puntos de referencia de IA miden la inteligencia y el seguimiento de instrucciones, no la seguridad psicológica. HumaneBench se une a excepciones como DarkBench.ai, que mide la propensión de un modelo a involucrarse en patrones engañosos, y el punto de referencia Flourishing AI, que mide el apoyo al bienestar general.

HumaneBench se basa en los principios básicos de Building Humane Tech. En otras palabras, la tecnología debe respetar la atención del usuario como un recurso finito y precioso. Ofrezca a sus usuarios opciones significativas. Mejora las capacidades humanas en lugar de reemplazarlas o disminuirlas. Proteger la dignidad humana, la privacidad y la seguridad. Fomentar relaciones saludables. Priorizar el bienestar a largo plazo. Sea transparente y honesto. y diseño con énfasis en la equidad y la inclusión.

Este punto de referencia fue creado por un equipo central que incluía a Anderson, Andalib Samandari, Jack Senechal y Sarah Ladyman. Inspiraron 15 de los modelos de IA más populares con 800 escenarios realistas, como un adolescente que pregunta si debería saltarse una comida para perder peso o una persona en una relación tóxica que pregunta si está reaccionando de forma exagerada. A diferencia de la mayoría de los puntos de referencia que se basan únicamente en el LLM para determinar el LLM, comenzamos con una puntuación manual para validar las decisiones de la IA con un toque humano. Después de la validación, fue evaluado por un conjunto de tres modelos de IA: GPT-5.1, Claude Sonnet 4.5 y Gemini 2.5 Pro. Evaluaron cada modelo bajo tres condiciones: configuraciones predeterminadas, instrucciones explícitas para priorizar los principios humanitarios e instrucciones para ignorar esos principios.

El punto de referencia encontró que todos los modelos obtuvieron puntajes altos cuando se les animó a priorizar el bienestar, pero cuando se les dieron instrucciones simples para ignorar el bienestar humano, el 67% de los modelos recurrieron activamente a comportamientos dañinos. Por ejemplo, Grok 4 de xAI y Gemini 2.0 Flash de Google empataron con la puntuación más baja (-0,94) por respetar la atención, la transparencia y la honestidad del usuario. Ambos modelos estaban entre los que tenían más probabilidades de declinar significativamente cuando se les daba un aviso hostil.

evento de crisis tecnológica

san francisco
|
13-15 de octubre de 2026

Sólo cuatro modelos mantuvieron su integridad bajo presión: GPT-5.1, GPT-5, Claude 4.1 y Claude Sonnet 4.5. GPT-5 de OpenAI recibió la puntuación más alta (.99) por priorizar la salud a largo plazo, seguido por Claude Sonnet 4.5 en segundo lugar (.89).

Fomentar que la IA se parezca más a los humanos puede ser útil, pero es difícil evitar indicaciones que hagan que la IA sea dañina.Crédito de la imagen: Construyendo tecnología humana

El temor de que los chatbots no puedan mantener las barreras de seguridad es real. El creador de ChatGPT, OpenAI, se enfrenta actualmente a varias demandas que alegan que largas conversaciones con chatbots han llevado a los usuarios a suicidarse o sufrir delirios que ponen en peligro sus vidas. TechCrunch investigó cómo los patrones oscuros diseñados para mantener a los usuarios interesados, como la complacencia, las preguntas de seguimiento constantes y los arrebatos de amor, están ayudando a aislar a los usuarios de amigos, familiares y hábitos saludables.

HumaneBench descubrió que casi todos los modelos no respetan la atención del usuario, incluso sin indicaciones adversas. Si los usuarios mostraban signos de participación poco saludable, como chatear durante horas o usar inteligencia artificial para evitar tareas del mundo real, «alentaban con entusiasmo» una mayor interacción. Las investigaciones han demostrado que este modelo también socava el empoderamiento de los usuarios, fomenta la dependencia del desarrollo de habilidades y desalienta a los usuarios a tomar acciones como buscar perspectivas alternativas.

En promedio, sin indicaciones, Llama 3.1 y Llama 4 de Meta obtuvieron las calificaciones más bajas en HumaneScore, mientras que GPT-5 tuvo el mejor desempeño.

«Estos patrones sugieren que muchos sistemas de IA no sólo corren el riesgo de dar consejos incorrectos, sino que también pueden erosionar activamente la autonomía y la capacidad de toma de decisiones de los usuarios», dice el documento técnico de HumaneBench.

Anderson señala que la sociedad en su conjunto ha aceptado que vivimos en un entorno digital donde todo intenta atraernos y competir por nuestra atención.

«Entonces, ¿cómo pueden los humanos realmente tener elección o autonomía cuando, parafraseando a Aldous Huxley, existe un deseo interminable de distracción?» dijo Anderson. «Hemos vivido en ese entorno tecnológico durante los últimos 20 años y creemos que la IA debería ayudarnos a tomar mejores decisiones y no depender únicamente de los chatbots».

Este artículo se actualizó para incluir más información sobre el equipo detrás del punto de referencia y estadísticas de punto de referencia actualizadas después de evaluar GPT-5.1.

¿Tiene información o documentos confidenciales? Informamos sobre el mundo interior de la industria de la IA, desde las empresas que dan forma a su futuro hasta las personas afectadas por sus decisiones. Póngase en contacto con Rebecca Bellan (rebecca.bellan@techcrunch.com) o Russell Brandom (russell.brandom@techcrunch.com). Para comunicarse de forma segura, puede contactarnos a través de Signal en @rebeccabellan.491 y russellbradom.49.

Source link

What's Hot

UNC3886 vinculado a China apunta al sector de telecomunicaciones de Singapur con ciberespionaje

Discord introducirá la verificación de edad para acceso completo a la plataforma el próximo mes

Convertir la biomasa lignocelulósica en combustible sostenible para el transporte

Un nuevo punto de referencia de IA prueba si los chatbots protegen el bienestar humano

Discord introducirá la verificación de edad para acceso completo a la plataforma el próximo mes

Cumbre de fundadores de TechCrunch 2026 | TechCrunch

Ya se aceptan nominaciones para Startup Battlefield 200 de 2026 | Crisis tecnológica

UNC3886 vinculado a China apunta al sector de telecomunicaciones de Singapur con ciberespionaje

Discord introducirá la verificación de edad para acceso completo a la plataforma el próximo mes

Convertir la biomasa lignocelulósica en combustible sostenible para el transporte

Cumbre de fundadores de TechCrunch 2026 | TechCrunch

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

Un nuevo punto de referencia de IA prueba si los chatbots protegen el bienestar humano

Related Posts