Cuando se habla del costo de la infraestructura de IA, la atención suele centrarse en Nvidia y las GPU, pero la memoria se está convirtiendo en una parte cada vez más importante del panorama. Los precios de los chips DRAM se han multiplicado por siete en el último año a medida que los hiperescaladores se preparan para construir nuevos centros de datos por valor de miles de millones de dólares.
Al mismo tiempo, existe una mayor disciplina a la hora de coordinar toda la memoria para garantizar que los datos correctos lleguen al agente adecuado en el momento adecuado. Las empresas que dominen esto podrán realizar las mismas consultas con menos tokens, lo que podría marcar la diferencia entre cerrar y permanecer en el negocio.
El analista de semiconductores Doug O’Loughlin habla con el director de inteligencia artificial de Weka, Val Bercovitch, para conocer de manera interesante la importancia de los chips de memoria en su subpila. Ambos son expertos en semiconductores, por lo que se centran en los chips y no en arquitecturas más amplias. El impacto en el software de IA también es muy importante.
Me llamó especialmente la atención la discusión de Bercovici sobre la creciente complejidad de la documentación de caché rápida de Anthropic:
Puede averiguarlo visitando la página de precios de Prompt Cash de Anthropic. Comenzó como una página muy simple hace seis o siete meses, especialmente cuando se lanzó Claude Code. Simplemente dijeron: «Es más barato si usas efectivo». Ahora es una enciclopedia de consejos sobre exactamente cuántas escrituras de caché comprar por adelantado. Hay una ventana de 5 minutos o una ventana de 1 hora, que es muy común en toda la industria, y nada más. Ese es un anuncio realmente importante. Por supuesto, tiene todo tipo de oportunidades de arbitraje con respecto al precio de las lecturas de caché en función de la cantidad de escrituras de caché que haya comprado por adelantado.
La pregunta aquí es cuánto tiempo Claude mantiene el mensaje en la memoria caché. Puede pagar por un período de 5 minutos o incluso más por un período de 1 hora. Es mucho más económico utilizar datos que todavía están en caché, por lo que si administra sus datos correctamente, puede ahorrar mucho dinero. Sin embargo, hay un problema. Cada vez que agrega nuevos datos a su consulta, es posible que se elimine algo más de la ventana de caché.
Esto es complejo, pero la conclusión es muy sencilla. La gestión de la memoria para los modelos de IA será una gran parte del futuro de la IA. Las empresas que lo hagan bien llegarán a la cima.
Y se están logrando muchos avances en este nuevo campo. En octubre, cubrí una startup llamada TensorMesh que estaba trabajando en una capa de la pila conocida como optimización de caché.
evento de crisis tecnológica
bostón, massachusetts
|
23 de junio de 2026
También existen oportunidades en otras partes de la pila. Por ejemplo, más abajo en la pila se encuentra cómo los centros de datos utilizan los diferentes tipos de memoria que tienen. (La entrevista incluye una buena discusión sobre cuándo se usan chips DRAM en lugar de HBM, pero está bastante profunda en los problemas de hardware). Más arriba en la pila, los usuarios finales están descubriendo cómo configurar sus conjuntos de modelos para aprovechar el caché compartido.
A medida que las empresas mejoran la orquestación de su memoria, utilizan menos tokens y el costo de la inferencia se vuelve más barato. Por otro lado, el modelo se está volviendo más eficiente en el procesamiento de cada token, lo que reduce aún más el costo. A medida que el coste de los servidores vaya disminuyendo, muchas aplicaciones que actualmente parecen inviables poco a poco empezarán a volverse rentables.
Source link
