El auge de la IA se basa en la premisa básica de que los modelos más grandes son más poderosos y que los modelos más poderosos ganarán. Ahora, la industria está aprendiendo qué sucede cuando esa suposición comienza a desmoronarse.
El aumento de los costes ya está provocando que los usuarios vuelvan a mirar hacia modelos más pequeños y baratos. Este modelo de compra consciente de los costos es nuevo y no está claro qué impacto tendrá en la industria, pero es probable que sea significativo.
Una de las predicciones mejor descritas por el cofundador de Coinbase, Brian Armstrong, es que la mayoría de las tareas se trasladarán a modelos más baratos.
«La demanda de inteligencia es casi ilimitada, pero el 80% de las cargas de trabajo se ejecutarán en modelos que son un 99% más baratos dentro de 12 a 18 meses», escribió Armstrong en X. «El 20% de la carga de trabajo continúa ejecutándose en los modelos de última generación donde maximizar el coeficiente intelectual es clave».
Es difícil exagerar cuán grande será el cambio para la industria de la inteligencia artificial si las predicciones de Armstrong se hacen realidad.
Hasta ahora, la mayoría de las empresas de IA han competido en calidad, lo que ha significado optar por los modelos más avanzados disponibles. Ser capaz de realizar estos mismos trabajos con modelos más baratos sin afectar la calidad representaría un cambio importante en la economía de la IA. Y lo que es más importante, gran parte de esos ahorros saldrán de los bolsillos de los grandes laboratorios, lo que supondrá un golpe financiero para OpenAI y Anthropic mientras se preparan para sus IPO.
Esto podría conducir a cambios significativos en la industria, y en el centro de todo hay una pregunta fundamental: «¿Están las empresas preparadas para cambiar a modelos más pequeños?»
Las pruebas iniciales sugieren que si el sistema se coloca correctamente, se pueden utilizar modelos más baratos sin sacrificar la calidad. En pruebas recientes con la herramienta legal de inteligencia artificial Harvey, la empresa pudo reducir los costos de inferencia tres veces sin reducir la calidad. Esta prueba se realizó en asociación con la plataforma de inferencia Fireworks AI, combinando Claude Opus con GLM 5.1 de Fireworks, pasando a Opus para las tareas más intensivas. El resultado fue una reducción significativa de la carga en términos de tiempo del servidor y costo general.
«La calidad es primordial y siempre lo ha sido en los asuntos legales», dijo a TechCrunch el cofundador de Harvey, Gabe Pereyra, refiriéndose a la oferta de servicios legales de inteligencia artificial de su startup. «Pero la definición de calidad ha evolucionado desde simplemente usar el modelo más poderoso para todo hasta usar el mejor modelo que obtiene la respuesta correcta de manera más eficiente».
Esta tendencia a menudo se enmarca en términos de los grandes laboratorios y el modelo chino, o el modelo promiscuo, pero eso pasa por alto el punto más importante. La verdadera diferencia no está entre los modelos propietarios y abiertos. Está entre un modelo grande y un modelo pequeño. Puede ahorrar dinero cambiando de GPT-5.5 al flash V4 de DeepSeek, pero cambiar a GPT-5.4-mini funciona igual de bien.
Existe una competencia activa de precios entre las inferencias internas de los principales laboratorios y los modelos promiscuos proporcionados de forma independiente. Cuando se trata de la cuestión más amplia de lo pequeño versus lo grande, realmente no importa qué tipo de modelo pequeño gana.
Todo esto puede parecer obvio y, por supuesto, no debería utilizar más computación de la necesaria, pero esto va en contra del enfoque de escalamiento primero que ha dominado la industria hasta la fecha. Inspiradas por esta amarga lección, las instituciones de investigación están trabajando arduamente para entrenar los modelos más intensivos en computación posibles, ampliando las fronteras de lo que pueden hacer los modelos de IA. Con los precios fuertemente subsidiados por los inversores, los clientes no tenían motivos para elegir otra cosa que las opciones más avanzadas.
Los usuarios enfrentan por primera vez presión de costos debido al aumento de los precios de los tokens y la desaceleración de los subsidios. No está claro si las nuevas presiones de costos realmente llevarán a los usuarios empresariales a modelos más pequeños. También puede ahorrar dinero fácilmente haciendo menos llamadas, utilizando menos contexto o simplemente renunciando a las implementaciones menos prometedoras.
Sin embargo, si resulta que la mayoría de las implementaciones se pueden realizar igual de bien con modelos más pequeños, podría tener serias implicaciones para las crecientes demandas de inferencia y plantear nuevas preguntas sobre cómo justificar el costo de entrenar modelos de frontera.
Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.
Source link
