Durante años, los CEO de las principales compañías de alta tecnología han promovido la visión de los agentes de IA que pueden usar aplicaciones de software para completar las tareas de las personas. Pero ya sea el agente ChatGPT de OpenAI o el cometa de Perplexity, gire a los agentes de IA de consumidores de hoy. De esa manera, puede darse cuenta rápidamente de cuán limitada es la tecnología. Hacer que los agentes de IA sean más robustos podrían adoptar un nuevo conjunto de técnicas que la industria todavía está descubriendo.
Una de estas técnicas es simular cuidadosamente un espacio de trabajo donde los agentes pueden ser entrenados en tareas de varios pasos conocidas como entornos de tareas de múltiples pasos (RL). Así como cómo se mueven los conjuntos de datos etiquetados en la ola final de IA, el entorno RL está comenzando a aparecer como un factor importante en el desarrollo de agentes.
Los investigadores de IA, los fundadores e inversores le dicen a TechCrunch que los principales laboratorios de IA están exigiendo más entornos RL y hay una escasez de nuevas empresas que desean proporcionarlos.
«Todos los grandes laboratorios de IA están construyendo entornos RL internos», dijo Jennifer Li, socia general de Andreessen Horowitz, en una entrevista con TechCrunch. «Pero como puede imaginar, crear estos conjuntos de datos es tan complicado que AI Labs también está buscando proveedores de terceros que puedan crear entornos y evaluaciones de alta calidad. Todos están mirando este espacio».
El impulso del entorno RL ha acuñado una nueva clase de nuevas empresas recién financiadas, incluida la mecanización e inteligencia clave, destinada a liderar el espacio. Mientras tanto, las grandes compañías de etiquetas de datos como Mercor y Surge dicen que están invirtiendo más en entornos RL, abordando el cambio de la industria de conjuntos de datos estáticos a simulaciones interactivas. Los principales laboratorios también están considerando invertir mucho. Según la información, los líderes humanos están debatiendo más de $ 1 mil millones en gastos en el entorno RL durante el próximo año.
La esperanza para los inversores y los fundadores es que una de estas nuevas empresas emerge como una «AI de escala para el medio ambiente» y se refiere a $ 29 mil millones en datos etiquetados como potencia, impulsados por la edad de los chatbots.
La pregunta es si el entorno RL realmente aumentará la frontera de la progresión de la IA.
Eventos de TechCrunch
San Francisco
|
27-29 de octubre de 2025
¿Qué es un entorno RL?
Debido a que los entornos RL son centrales, son la base para la capacitación para simular lo que hacen los agentes de IA en aplicaciones de software reales. Un fundador explicó en una entrevista reciente que los construirá en «Crear videojuegos muy aburridos, etc.»
Por ejemplo, el entorno puede simular un navegador Chrome y los agentes de IA de la tarea para comprar calcetines en Amazon. El agente está calificado para su rendimiento y envía una señal de recompensa cuando es exitoso (en este caso, compra calcetines valiosos).
Tales tareas suenan relativamente simples, pero hay muchos lugares donde los agentes de IA pueden tropezar. Es posible que esté navegando a través de menús desplegables en una página web o comprando demasiados calcetines. Además, dado que los desarrolladores no pueden predecir con precisión qué está haciendo un agente incorrecto, el entorno en sí mismo debe ser lo suficientemente robusto como para capturar un comportamiento inesperado y aún así proporcionar comentarios útiles. Esto hace que el entorno construido sea mucho más complicado que un conjunto de datos estáticos.
Algunos entornos son muy elaborados, lo que permite a los agentes de IA usar herramientas, acceder a Internet y usar una variedad de aplicaciones de software para completar tareas específicas. Otros están más estrechos y tienen como objetivo ayudar a los agentes a aprender tareas específicas en aplicaciones de software empresarial.
El entorno RL es actualmente lo más popular en Silicon Valley, pero hay muchos precedentes para usar esta técnica. Uno de los primeros proyectos de Openai en 2016 fue construir «gimnasios RL». Esto fue muy similar al concepto moderno del medio ambiente. En el mismo año, el sistema Alphago AI de Google Deepmind derrotó al campeón mundial en el juego de mesa. También utilizamos tecnología RL dentro de un entorno simulado.
Lo único del entorno actual es que los investigadores están tratando de construir agentes de IA basados en computadora con modelos trans a gran escala. A diferencia de Alphago, un sistema de IA especializado que se ejecuta en un entorno cerrado, los agentes de IA de hoy están capacitados para tener funciones más generales. Los investigadores de IA hoy tienen un punto de partida más fuerte, pero también hay objetivos complejos que no van bien con muchos más.
Un campo ocupado
Las compañías de etiquetado de datos de IA a escala AI como IA, Surge, Mercor están tratando de reunirse en este momento y construir un entorno RL. Estas compañías tienen más recursos que muchas nuevas empresas en este espacio, así como sus relaciones más profundas con los laboratorios de IA.
El CEO de Surge, Edwin Chen, dijo a TechCrunch que la demanda de entornos RL dentro de AI Labs ha sido «un aumento significativo» recientemente. Surge, que, según los informes, trabajó con laboratorios de IA como OpenAi, Google, Anthrope y Meta el año pasado para generar ingresos en $ 1.2 mil millones, dijo recientemente que ha provocado una nueva organización interna especialmente cobrada para construir un entorno RL.
Justo detrás de la oleada está Mercor, una startup por valor de $ 10 mil millones que también funciona en OpenAi, Meta y Humanidad. Mercor está lanzando a los inversores a un entorno de construcción de negocios RL para tareas específicas del dominio, como la codificación, la salud y el derecho, según los materiales de marketing observados por TechCrunch.
«Leah, pocas personas entienden cuán grandes son las oportunidades en el entorno RL», dijo el CEO de Melkor, Brendan Hoody, a TechCrunch en una entrevista.
La escala AI utilizada para controlar el espacio de etiquetado para los datos ha perdido terreno desde que Meta invirtió $ 14 mil millones y los CEO contratados. Desde entonces, Google y OpenAI han eliminado la IA de escala como proveedores de datos, y las nuevas empresas incluso se han enfrentado a una carrera por el trabajo de etiquetado de datos dentro de Meta. Pero aun así, Scale está tratando de reunirse en este momento y crear un entorno.
«Esto se encuentra en la naturaleza del negocio (escala IA)», dijo Chetan Rane, jefe de producto para agentes y entornos RL. «La escala demuestra su capacidad para adaptarse rápidamente. Hicimos esto al principio de nuestra primera unidad de negocios, los autos autónomos. Cuando salió ChatGPT, AI se adaptó a ella.
Algunos jugadores nuevos se han centrado únicamente en el entorno desde el principio. Entre ellos se encuentra una startup que se fundó hace unos seis meses con el objetivo audaz de «automatizar todos los trabajos». Sin embargo, el cofundador Matthew Barnett le dice a TechCrunch que su compañía comienza con el entorno RL de un agente de codificación de IA.
La mecanización tiene como objetivo proporcionar a los laboratorios de IA un pequeño número de entornos RL robustos, dice Barnett, en lugar de una gran compañía de datos que crea una amplia gama de entornos RL simples. En este punto, la startup está construyendo un entorno RL al ofrecer un salario de $ 500,000 a los ingenieros de software. Esto es mucho más alto que los contratistas por hora pueden trabajar con IA o sobretensiones.
Mechanize ya está trabajando con la humanidad en un entorno RL, dijeron dos fuentes familiarizadas con el problema TechCrunch. La mecanización y la humanidad declinaron hacer comentarios sobre la asociación.
Otras nuevas empresas apostan a que el entorno RL tendrá un impacto fuera de los laboratorios de IA. Prime Intellect: una startup apoyada por los investigadores de IA Andrej Karpathy, Founders Fund y Menlo Ventures se dirige a pequeños desarrolladores en entornos RL.
El mes pasado, Prime Intellect lanzó el centro de RL Entorness. Esto está destinado a «abrazar la cara de un entorno RL». La idea es permitir que los desarrolladores de código abierto accedan a los mismos recursos que tienen los grandes laboratorios de IA, lo que permite a esos desarrolladores acceder a los recursos computacionales en el proceso.
Según Will Brown of Prime Intellect Investigador, un agente generalmente capaz puede ser más computacional que las técnicas de capacitación de IA previas en un entorno RL. Junto con las nuevas empresas que construyen entornos RL, los proveedores de GPU pueden mejorar sus procesos tienen otra oportunidad.
«El entorno RL sería demasiado grande para que una compañía controlara», dijo Brown en una entrevista. «Parte de lo que hacemos es tratar de construir una excelente infraestructura de código abierto a su alrededor. Los servicios que vendemos son cálculos, por lo que es una rampa conveniente usar GPU, pero esto es lo que estamos pensando a largo plazo».
¿Escala?
Una pregunta no resuelta con respecto al entorno RL es si la técnica se escala como métodos de entrenamiento de IA anteriores.
El aprendizaje de refuerzo ha impulsado algunos de los mayores saltos de IA durante el año pasado, incluidos modelos como Openi’s O1 y Claude Opus 4 de Anthrope. Estos son avances particularmente importantes, ya que los métodos utilizados previamente para mejorar los modelos de IA muestran rendimientos reducidos.
El entorno es parte de las apuestas más grandes de AI Labs en RL, y creemos que muchos continuarán impulsando el progreso a medida que los datos y los recursos computacionales se agregan al proceso. Algunos investigadores de Operai detrás de O1 le dijeron previamente a TechCrunch que la compañía invirtió originalmente en el modelo de razonamiento de IA (creado a través de la inversión en RL y los cálculos durante las pruebas) y pensó que sería una buena extensión.
La mejor manera de escalar RL sigue siendo desconocida, pero el entorno parece ser un candidato prometedor. En lugar de simplemente recompensar al chatbot por las respuestas de texto, los agentes usan herramientas y computadoras a su disposición para ejecutarse en simulaciones. Es mucho más intensivo en recursos, pero potencialmente gratificante.
Algunos son escépticos de que todos estos entornos RL funcionarán. Ross Taylor, ex líder de investigación de IA en Meta, quien cofundó el razonamiento general, le dice a TechCrunch que los entornos RL tienden a recompensar la piratería. Este es el proceso en el que la IA modela trampa para obtener recompensas sin realizar tareas.
«Creo que la gente subestima lo difícil que es expandir el medio ambiente», dijo Taylor. «Incluso los mejores (entornos RL) que generalmente están disponibles normalmente no funcionarán sin cambios serios».
Sherwin Wu, jefe de ingeniería de API Business en OpenAI, dijo en un podcast reciente que era «corto» en las nuevas empresas del entorno RL. Wu dijo que es un espacio muy competitivo, pero la investigación de IA ha evolucionado tan rápido que es difícil servir bien los laboratorios de IA.
Karpathy, un principal inversor de inteligencia que llama al entorno RL un posible avance, ha prestado más atención al espacio RL. En la publicación de X, planteó preocupaciones sobre si podía exprimir más progresos de AI de RL.
«Soy optimista sobre la interacción entre el medio ambiente y el agente, pero específicamente, soy bajista con el aprendizaje de refuerzo», dice Karpathy.
ACTUALIZACIÓN: Las versiones anteriores de este artículo se llamaban trabajo de mecanización. Actualizado para reflejar el nombre oficial de la compañía.
Source link
