Se acerca la fecha límite para la factura de tokens: la batalla de la industria para controlar los costos galopantes de la IA

En todos los sectores, las empresas están empezando a oponerse a los costes de la IA. Uber agotó su presupuesto de codificación de IA para 2026 en abril. Microsoft revocó las licencias de código de nube de los desarrolladores meses después de su activación. Un empleado de Priceline le dijo a TechCrunch que las renovaciones regulares de Cursor cuestan de cuatro a cinco veces más.

A pesar de la caída del precio por token, la creciente adopción de la IA y el aumento de agentes autónomos están provocando un consumo cada vez mayor de tokens. Las empresas que hicieron una fortuna con las suscripciones a todo lo que puedas comer a principios de 2025 ahora están luchando por descubrir a dónde va su dinero, recortar gastos y ver si pueden recuperar algo de retorno de la inversión de los presupuestos sobrantes.

Mientras tanto, se está formando un mercado que les atienda. Las empresas emergentes, los proveedores establecidos y los nuevos organismos de normalización compiten para brindar a las empresas las herramientas y el lenguaje para realizar un seguimiento del gasto.

«Hace seis meses, estuve conversando con clientes y la cuestión era: ‘¿Qué podemos hacer? ¿Es lo suficientemente bueno?'», dijo Alexander Embirikos, director empresarial de OpenAI, a TechCrunch en un evento en la ciudad de Nueva York esta semana. «Ahora nuestras conversaciones nunca giran en torno a cosas así. Ahora las conversaciones son: ‘Oye, estamos gastando mucho dinero. ¿Qué visibilidad tenemos? ¿Qué auditabilidad tenemos? ¿Qué gestión de tokens tenemos? ¿Cómo es la eficiencia del modelo?'»

En este contexto, la Fundación Linux anunció esta semana planes para la Fundación Tokenomics, un nuevo organismo de estándares destinado a inculcar la misma disciplina de costos en torno a los tokens de IA que FinOps tiene para el gasto en la nube.

«En abril y mayo, empezamos a escuchar a las empresas decir: ‘Vaya, hemos triplicado todo nuestro presupuesto de tokens para 2026 y solo es abril'», dijo a TechCrunch JR Storment, director ejecutivo de la Fundación FinOps, un proyecto de la Fundación Linux. «Empezamos a oír hablar de una crisis existencial y toda la conversación pasó de maximizar los tokens y ‘ir rápido’ a ‘necesitamos barreras de seguridad, ¿cómo controlamos esto?'»

Los gritos escuchados en el mundo tecnológico siguieron a un apasionado llamado de los directores ejecutivos para ignorar los costos y obligar a sus equipos a utilizar los mejores modelos y actuar con rapidez. Los nuevos modelos lanzados en noviembre, como Claude Opus 4.5 de Anthropic, GPT-5.1 de OpenAI y Gemini 3 Pro de Google, trajeron mejoras significativas a las herramientas de los agentes y duplicaron el consumo. Así es como una empresa supuestamente recibió una factura de Claude de 500 millones de dólares porque olvidó establecer límites de uso para sus empleados.

«Esto es como la epidemia de crack», dijo Chris Reed, director senior de finanzas de TI en Priceline, señalando que la compañía ha comenzado a imponer restricciones simbólicas a ciertos grupos. «Te dejaron probarlo para engancharte y ahora estás enganchado».

Vitaly Gordon, director ejecutivo de la plataforma de operaciones de ingeniería Faros AI, dijo que recientemente habló con un CTO que le dijo: «Uno de mis ingenieros gastó 40.000 dólares en tokens el mes pasado, y realmente no sé si debería detenerlo o decirle a todos los demás que sean como él».

Un estudio de marzo realizado por Faros encontró que la producción entre 20.000 desarrolladores está aumentando, pero también los errores y las reescrituras. La plataforma de gestión de ingeniería Jellyfish descubrió de manera similar que los ingenieros que usaban más tokens eran aproximadamente el doble de productivos que aquellos que usaban menos IA, pero gastaban 10 veces más tokens para llegar allí.

Nicholas Arcolano, jefe de investigación de Jellyfish, dijo a TechCrunch en un correo electrónico que el gasto en IA se está disparando, impulsado principalmente por las capacidades de los agentes, y que el consumo por desarrollador ha aumentado aproximadamente 18,6 veces en nueve meses. En general, estas estadísticas hacen que el caso de la productividad sea más opaco de lo que sugeriría el gasto.

«Que el gasto extremo dé sus frutos depende del valor comercial final (como los ingresos) del código enviado, que la mayoría de las empresas aún no pueden medir», dijo Arcolano.

Al menos parte del problema de la medición radica en la enorme escala a la que se utiliza la IA en la actualidad.

«El seguimiento de los costos de la nube es un problema con cientos de millones de filas de datos por mes», dijo Storment. «El seguimiento de los costos de los tokens es un problema con billones de filas de datos por mes. No se puede simplemente conectarlos a una hoja de cálculo o a una herramienta básica. Para hacerlo, hay que repensar fundamentalmente sus herramientas, especificaciones y sistemas de contabilidad».

En Priceline, Reed ya ve una discrepancia. Señaló problemas entre el uso informado por los proveedores y los datos internos de Priceline.

«Comencé mi carrera en la gestión de gastos de telecomunicaciones y veo las mismas similitudes en todo, desde las telecomunicaciones hasta la nube y la inteligencia artificial», dijo. «Cada vez que se introduce algo nuevo, existen oportunidades de errores de facturación, auditorías y optimización».

Está empezando a formarse un mercado en torno a este tema. También hay empresas exclusivas como Pay-i que rastrean, miden y optimizan el costo y el rendimiento de las inversiones en GenAI. Pagado, por otro lado, permite a los desarrolladores realizar un seguimiento de los costos, medir el uso y cobrar a los usuarios en función del valor real en lugar de las tarifas de suscripción.

Además, hay empresas como Jellyfish, Waydev y Faros AI, todas las cuales ofrecen monitoreo de agentes de IA para demostrar el retorno de la inversión de las herramientas de desarrollo. La mayoría de los 180 proveedores dentro de la Fundación FinOps se inclinan por este espacio, dijo Storment.

Las empresas con distribuciones existentes también están agregando nuevas funciones para aprovechar este nuevo mercado. Ramp recientemente hizo la transición a la gestión de gastos de IA. Datadog y New Relic trabajaron en servicios como gestión de costos en la nube, observabilidad a nivel de token y monitoreo de GPU. En la conferencia FinOps X de la próxima semana, AWS presentará nuevas capacidades de gestión financiera para el gasto empresarial en IA.

Tiffany Luck, socia de NEA, cree que la eficiencia y la observabilidad de los tokens probablemente se agregarán a la «capa de aprovechamiento o capa de aplicación». Señaló Factory, una startup que desarrolla agentes de inteligencia artificial para empresas. Esta semana, la compañía lanzó un modelo de enrutador que selecciona automáticamente el modelo correcto para cualquier tarea.

Gordon espera que Frontier Labs y otros proveedores de modelos empleen optimización estilo OpenRouter para dirigir consultas a los modelos más baratos. Esta tendencia ya es visible en las facturas corporativas.

«El informe financiero sobre cuánto gastamos en Anthropic, incluso si lo llamamos modelo Opus, parte del gasto se destinará a Sonnet o Haiku, porque son lo suficientemente inteligentes», dijo Gordon. «Creo que esto será cada vez más importante».

Sin embargo, todas estas herramientas se crean sin un lenguaje común o una definición compartida del costo de un token, lo que genera y cómo comparar el gasto entre proveedores. Ahí es donde la Fundación Tokenomics espera ayudar.

La Fundación está elaborando una definición y un marco estándar para la «tokenomía». Estándares, especificaciones y métricas abiertos para usar y reclamar tokens de IA. También incluye nuevas métricas para la economía de la IA, como el costo por inteligencia y los tokens por vatio. También planeamos definir indicadores sobre la efectividad y eficiencia del consumo de la fábrica de tokens. El grupo está programado para lanzarse oficialmente en julio y anunciará más miembros en la conferencia FinOps X de la próxima semana.

«La economía de los tokens es fundamentalmente más abstracta y opaca de lo que hemos manejado tradicionalmente a esta escala», dijo en un comunicado Nishant Gupta, director de disponibilidad de Salesforce. «Requiere una capacidad operativa diferente a la que la industria ha creado para la nube».

Dicho esto, Goldman Sachs predice que el uso global de tokens aumentará 24 veces para 2030. Las empresas que ya están por encima del presupuesto necesitan una solución ahora, y aún faltan meses para los primeros resultados de la fundación.

«Es posible que hayan construido una máquina de vapor, pero aún se desconoce la línea de montaje», dijo Gordon.

La medida inteligente, dijo Arcolano, es adoptar de manera amplia y moderada.

«El mejor retorno de la inversión proviene de mover a una amplia clase media de un uso bajo a moderado, en lugar de empujar a los usuarios habituales a niveles de uso más altos», afirmó.

Russell Brandom y Tim Fernholz contribuyeron a este informe.

Si compra a través de enlaces en nuestros artículos, podemos ganar una pequeña comisión. Esto no afecta la independencia editorial.

Source link

What's Hot

Claude AI descifra el esquema de prueba post-cuántica y descubre un ataque AES de 7 rondas más rápido

El nuevo motor térmico cuántico produce trabajo y enfriamiento simultáneamente

La botnet Tengu reinicia los dispositivos Linux comprometidos cuando los defensores cierran procesos

Se acerca la fecha límite para la factura de tokens: la batalla de la industria para controlar los costos galopantes de la IA

Microsoft presenta el primer modelo de ciberseguridad y un nuevo sistema de ciberseguridad para agentes

Apple presenta una demanda alegando que el fraude con criptomonedas en la App Store costó a los usuarios 1,8 millones de dólares

Antares recauda 470 millones de dólares para construir un reactor nuclear para el ejército estadounidense

Claude AI descifra el esquema de prueba post-cuántica y descubre un ataque AES de 7 rondas más rápido

El nuevo motor térmico cuántico produce trabajo y enfriamiento simultáneamente

La botnet Tengu reinicia los dispositivos Linux comprometidos cuando los defensores cierran procesos

Investigadores de Warwick proponen una nueva ruta hacia la transferencia escalable de información cuántica

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

Se acerca la fecha límite para la factura de tokens: la batalla de la industria para controlar los costos galopantes de la IA

Related Posts