Deepseek’s Destilación El nuevo modelo R1AI se puede ejecutar en una sola GPU

El modelo de AI de razonamiento R1 actualizado de Deepseek puede estar atrayendo la atención de la comunidad de IA esta semana. Sin embargo, el laboratorio de IA chino también ha lanzado una versión «destilada» del nuevo R1, el Deepseek-R1-0528-QWen3-8b. Esto argumenta que Deepseek rompe modelos de tamaños comparables en ciertos puntos de referencia.

El pequeño R1 actualizado, construido con el modelo QWEN3-8B Alibaba, lanzado como una base en mayo, es mejor que el Gemini 2.5 flash de Google en Aieme 2025, que es mejor que el Gemini 2.5 Flash de Google en Aieme 2025.

El Deepseek-R1-0528-Qwen3-8b está más o menos en línea con el modelo Phi 4 Phi 4 Razoning Plus Lanzado recientemente de Microsoft, otra prueba de habilidad matemática, hmmt.

Los llamados modelos de destilación, como Deepseek-R1-0528-QWen3-8b, son generalmente menos capaces que sus contrapartes de tamaño completo. En el lado positivo, son mucho menos exigentes computacionalmente. Según la plataforma de nube nodeshift, QWEN3-8B requiere una GPU con 40GB-80GB de RAM para ejecutarse (por ejemplo, el NVIDIA H100). El nuevo R1 de tamaño completo requiere aproximadamente una docena de GPU de 80 GB.

Deepseek entrenó a Deepseek-R1-0528-Qwen3-8b obteniendo el texto generado por el R1 actualizado y usándolo para ajustar QWEN3-8B. En una página web dedicada para el modelo AI Dev Platform Face-Hugging, Deepseek describe Deepseek-R1-0528-QWen3-8b como «tanto para la investigación académica sobre modelos de inferencias como para el desarrollo industrial que se centra en modelos a pequeña escala».

Deepseek-R1-0528-Qwen3-8b está disponible bajo una licencia MIT aceptable. Esto significa que se puede usar comercialmente sin restricciones. Varios anfitriones, incluido LM Studio, ya ofrecen modelos a través de API.

Source link

What's Hot

Monday.com es la última empresa de tecnología que culpa a la IA por los despidos; vea otras 20

Hacker que humilló al fabricante de software espía pero no fue atrapado

La publicidad maliciosa envía malware en pedazos y obliga al navegador a crear un archivo ejecutable

Deepseek’s Destilación El nuevo modelo R1AI se puede ejecutar en una sola GPU

Monday.com es la última empresa de tecnología que culpa a la IA por los despidos; vea otras 20

Hacker que humilló al fabricante de software espía pero no fue atrapado

Kalsi pide a Netflix que elimine el tráiler del documental ‘Prediction Game’

Monday.com es la última empresa de tecnología que culpa a la IA por los despidos; vea otras 20

Hacker que humilló al fabricante de software espía pero no fue atrapado

La publicidad maliciosa envía malware en pedazos y obliga al navegador a crear un archivo ejecutable

Kalsi pide a Netflix que elimine el tráiler del documental ‘Prediction Game’

el último

TwinH Presenta una Tecnología Revolucionaria para Cocinas Inteligentes

¡Conoce a tu gemelo digital! La IA de vanguardia de Europa que está personalizando la medicina

TwinH: El cambio de juego de la IA para servicios legales más rápidos y accesibles

What's Hot

Deepseek’s Destilación El nuevo modelo R1AI se puede ejecutar en una sola GPU

Related Posts