Los investigadores de IA de OpenAI, Google Deepmind, una amplia coalición de humanidad y empresas y organizaciones sin fines de lucro están pidiendo una mirada más profunda a la tecnología para monitorear las llamadas ideas de modelos de inferencia de IA en un documento de posición publicado el martes.
Una característica clave de los modelos de inferencia de IA como el O3 de OpenAI y el R1 de Deepseek son la cadena o la cadena Cots. Es similar a cómo los humanos usan Scratchpads para hacer preguntas matemáticas difíciles en los procesos de externalización donde los modelos de IA funcionan a través de los problemas. Los modelos de inferencia son la tecnología central para ejecutar agentes de IA, y los autores del documento argumentan que el monitoreo de COT podría convertirse en la forma central de controlar a los agentes de IA a medida que los agentes de IA se vuelven más utilizados y capaces.
«El monitoreo de COT presenta una valiosa adición a las medidas de seguridad de AI fronterizas y proporciona vislumbres raros sobre cómo los agentes de IA toman decisiones», dijeron los investigadores de Postise Paper. «Aun así, no hay garantía de que el grado actual de visibilidad dure. Alentamos a los desarrolladores de la comunidad de investigación y la IA fronteriza a estudiar cómo aprovechar al máximo la monitorización de COT y almacenarlo».
El documento de posición les pide a los principales desarrolladores de modelos de IA que investigue lo que hace que las cunas sean «monitorizables». Esto significa que puede aumentar o disminuir la transparencia sobre qué factores el modelo AI realmente alcanza la respuesta. Los autores del documento afirman que el monitoreo de la cuna puede ser una forma importante de comprender los modelos de inferencia de IA, pero ten en cuenta que puede ser vulnerable a las intervenciones que pueden reducir la transparencia y la confiabilidad.
Los autores del documento también invitan a los desarrolladores de modelos AI a rastrear monitores de cuna y descubrir qué día pueden implementarse como una medida de seguridad.
Los firmantes notables del documento incluyen abiertamente directora de investigación, Ilya Satsukeiber, CEO del líder seguro Jen, el ganador del Premio Nobel Jeffrey Hinton, el cofundador de Google Deepmind, Shane Legg, el asesor de seguridad de Zay, Dan Hendrix, y el cofundador de la máquina de pensamiento John Shulman. Los primeros autores incluyen el Instituto del Reino Unido de Líderes de Investigación de Seguridad de AI y Apolo, con otros firmantes provenientes de Metr, Amazon, Meta y UC Berkeley.
Este artículo presenta un momento de unidad entre muchos líderes en la industria de la IA para alentar la investigación sobre la seguridad de la IA. Eso viene cuando las compañías tecnológicas quedan atrapadas en una competencia feroz. Esto ha llevado a Meta a abrir caza, Google Deep Mind y los principales investigadores de la humanidad con un millón de ofertas de dólares. Algunos de los investigadores más respetados son aquellos que construyen agentes de IA y modelos de inferencia de IA.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
«Estamos en este momento importante en el que tenemos esta nueva forma de pensar. Es bastante útil, pero puede desaparecer en unos años si la gente realmente no se concentra». «Para mí, publicar un documento de posición como este es un mecanismo para obtener más investigación y atención sobre este tema antes de que suceda».
Operai lanzó una vista previa de su primer Modelo O1 de Inferencias AI en septiembre de 2024. La industria tecnológica ha lanzado rápidamente competidores que muestran características similares en las que algunos modelos de Google Deepmind, Xai y Humanity muestran un rendimiento más avanzado en los puntos de referencia.
Sin embargo, hay relativamente poca comprensión de cómo funcionan los modelos de inferencia de IA. AI Labs ha sido excelente para mejorar el rendimiento de la IA el año pasado, pero no necesariamente se traduce a una mejor comprensión de cómo alcanzarán la respuesta.
La humanidad es un campo llamado interpretabilidad, uno de los líderes de la industria para comprender cómo funcionan los modelos de IA. A principios de este año, el CEO Dario Amodei anunció su compromiso de abrir una caja negra para modelos de IA para 2027 e invertir más en interpretabilidad. Llamó a Openai y Google Deepmind para estudiar más el tema.
Los primeros estudios en humanos muestran que las cunas pueden no ser una indicación completamente confiable de cómo estos modelos alcanzarán la respuesta. Al mismo tiempo, los investigadores de OpenAI dicen que el monitoreo de COT algún día podría convertirse en una forma confiable de rastrear la alineación y la seguridad de los modelos de IA.
El objetivo de tales documentos de posición es señalar el impulso y prestarle más atención a las primeras áreas de investigación como el monitoreo de la cuna. Empresas como OpenAI, Google Deepmind y Anthrope ya han estado investigando estos temas, pero este documento podría alentar más fondos e investigaciones.
Source link
