El lunes, los investigadores de Deepseek publicaron un nuevo modelo experimental llamado V3.2-Exp, diseñado para reducir drásticamente los costos de inferencia cuando se usan en operaciones de contexto largas. Deepseek anunció el modelo en una publicación sobre los abrazos de Face y publicó un artículo académico vinculado a Github.
La característica más importante del nuevo modelo se llama Anterest SPARSE profundo. Este es un sistema complejo explicado en detalle en el diagrama a continuación. Esencialmente, el sistema utiliza un módulo llamado «Lightning Insider» para priorizar ciertos extractos desde la ventana de contexto. Otro sistema, llamado «Sistema de selección de token de grano fino», luego selecciona un token específico desde estos extractos y lo carga en la ventana de atención limitada del módulo. En resumen, los modelos de atención escasa pueden funcionar para que el servidor se cargue en secciones largas de contextos relativamente pequeños.

Para las operaciones de contexto a largo plazo, las ventajas del sistema son importantes. Una prueba preliminar de Deepseek muestra que el precio de las llamadas de API simples puede reducirse a la mitad en largas situaciones de contexto. La construcción de una evaluación más sólida requerirá más pruebas, pero dado que los modelos son de peso abierto y están disponibles gratuitamente, no pasará mucho tiempo antes de que las pruebas de terceros puedan evaluar las reclamaciones hechas en el documento.
El nuevo modelo de Deepseek es uno de los avances recientes que abordan el tema de los costos de inferencia. Esencialmente, es el costo del servidor para manipular un modelo de IA previamente capacitado que es diferente del costo de la capacitación. En el caso de Deepseek, los investigadores buscaban formas de hacer que las arquitecturas básicas de transformadores funcionen de manera más eficiente.
Deepseek, con sede en China, fue una figura rara en el auge de la IA, especialmente aquellos que ven la investigación de la IA como una lucha nacionalista entre los Estados Unidos y China. La compañía hizo olas en el modelo R1 a principios de año, y recibió capacitación utilizando el aprendizaje de refuerzo, principalmente a un costo mucho menor que sus competidores estadounidenses. Sin embargo, este modelo no ha desencadenado una revolución mayorista en la capacitación de IA, como algunos han predicho. La compañía luego se retiró del centro de atención en esos pocos meses.
Es poco probable que el nuevo enfoque de «escasa atención» produzca el mismo alboroto que R1, pero puede enseñar a los proveedores los trucos necesarios para mantener bajos los costos de inferencia.
Source link
