Los agentes de IA son cada vez más sofisticados. Han evolucionado desde responder preguntas hasta realizar de forma autónoma tareas complejas de varios pasos.
Pero antes de que se pueda confiar en que estos agentes reserven viajes o realicen análisis financieros en nombre de los usuarios, los proveedores de modelos y las nuevas empresas que crean dichos agentes quieren asegurarse de que sus agentes se desempeñen de manera confiable en una amplia gama de escenarios.
Los laboratorios de IA a menudo utilizan puntos de referencia para mostrar las capacidades de sus modelos, pero las puntuaciones altas, incluso para los puntos de referencia orientados a agentes, en realidad no prueban que la IA pueda realizar con éxito una variedad de trabajos complejos en el mundo real.
Patronus AI, una startup fundada en 2023 por los ex investigadores de meta-IA Anand Kanappan y Rebecca Kian, ayuda a los fabricantes de modelos y a las empresas a ajustar sus modelos para lograr precisamente eso mediante la creación de entornos digitales simulados para evaluar el desempeño de los agentes.
Esta startup con sede en San Francisco seguramente estará resolviendo un problema importante. Glenn Solomon, director general de Notable Capital, dice que la demanda de los entornos simulados de su empresa es casi insaciable, y entre sus clientes se incluyen prácticamente todos los laboratorios de IA de vanguardia y muchas nuevas empresas emergentes.
Los ingresos de Patronus se multiplicaron por 15 durante el año pasado, lo que generó un importante interés de los inversores. La compañía anunció el jueves una ronda Serie B de 50 millones de dólares liderada por Greenfield Partners con la participación de Notable Capital, Lightspeed, Datadog y Samsung. Esta ronda eleva la financiación total de la empresa a 70 millones de dólares.
Patronus utiliza lo que llama un «modelo de mundo digital» para crear réplicas de su sitio web y sus sistemas internos. En estos entornos, los agentes son sometidos a pruebas de estrés después del entrenamiento utilizando el aprendizaje por refuerzo, recompensando repetidamente la finalización exitosa de las tareas y penalizando los errores.
AI Lab ve un gran valor en estas simulaciones digitales porque brindan a los agentes la oportunidad de probar escenarios diferentes y, a veces, impredecibles. La compañía está comparando su enfoque con cómo Waymo entrenó por primera vez sus autos autónomos construyendo mundos sintéticos y probando los vehículos contra peligros raros, como el mal tiempo o niños persiguiendo pelotas.
La diferencia con los agentes de IA es que tienden a tomar atajos y no completan las tareas correctamente. «Patronus es muy bueno para detectar hacks y asegurarse de que los modelos rindan cuentas», dijo Solomon.
Kannappan dijo que Patronus actualmente ofrece mundos digitales simulados para ingeniería de software y finanzas, pero esto es solo el comienzo.
«Hoy estamos muy centrados en problemas verificables, problemas que podemos ver y verificar rápidamente, pero hay muchas más áreas que no se pueden verificar o son muy difíciles de verificar», dijo.
El hecho de que estos procesos sean verificables no significa que sean simples. «Queremos poder crear un entorno en el que podamos ejecutar agentes que puedan funcionar durante 10 horas, 10 días o 10 semanas», dijo Kannappan.
En cuanto a la competencia, Patronus cree que compite principalmente con los equipos internos que AI Labs ha creado para evaluar el comportamiento de los agentes. Mientras que las empresas de datos humanos como Mercor y Surge dependen del aprendizaje por refuerzo para ayudar a construir modelos, Patronus opera de manera diferente al evaluar cómo se comportan los agentes sin participación humana.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
