Cerrar menú
  • Inicio
  • Academia
  • Eventos
  • Tecnología financiera
  • Identidad
  • Internacional
  • Inventos
  • Startups
  • English
What's Hot

Cómo ver la nota clave WWDC 2025 de Apple

En WWDC 25, la IA debe compensar con los desarrolladores después de la escasez de IA y las demandas

Las nuevas operaciones de malware de la cadena de suministro alcanzan los ecosistemas de NPM y PYPI, apuntando a millones de personas en todo el mundo

Facebook X (Twitter) Instagram
  • Home
  • Contáctenos
  • DMCA
  • Política de Privacidad
  • Sobre Nosotros
  • Términos y Condiciones
  • 📢 Anúnciate con Nosotros
  • Enviar publicaciones
FySelf Noticias
  • Inicio
  • Academia
  • Eventos
  • Tecnología financiera
  • Identidad
  • Internacional
  • Inventos
  • Startups
  • English
FySelf Noticias
Home » Deepseek’s Destilación El nuevo modelo R1AI se puede ejecutar en una sola GPU
Startups

Deepseek’s Destilación El nuevo modelo R1AI se puede ejecutar en una sola GPU

corp@blsindustriaytecnologia.comBy corp@blsindustriaytecnologia.commayo 29, 2025No hay comentarios2 minutos de lectura
Share Facebook Twitter Pinterest Telegram LinkedIn Tumblr Email Copy Link
Follow Us
Google News Flipboard
Share
Facebook Twitter LinkedIn Pinterest Email Copy Link

El modelo de AI de razonamiento R1 actualizado de Deepseek puede estar atrayendo la atención de la comunidad de IA esta semana. Sin embargo, el laboratorio de IA chino también ha lanzado una versión «destilada» del nuevo R1, el Deepseek-R1-0528-QWen3-8b. Esto argumenta que Deepseek rompe modelos de tamaños comparables en ciertos puntos de referencia.

El pequeño R1 actualizado, construido con el modelo QWEN3-8B ​​Alibaba, lanzado como una base en mayo, es mejor que el Gemini 2.5 flash de Google en Aieme 2025, que es mejor que el Gemini 2.5 Flash de Google en Aieme 2025.

El Deepseek-R1-0528-Qwen3-8b está más o menos en línea con el modelo Phi 4 Phi 4 Razoning Plus Lanzado recientemente de Microsoft, otra prueba de habilidad matemática, hmmt.

Los llamados modelos de destilación, como Deepseek-R1-0528-QWen3-8b, son generalmente menos capaces que sus contrapartes de tamaño completo. En el lado positivo, son mucho menos exigentes computacionalmente. Según la plataforma de nube nodeshift, QWEN3-8B ​​requiere una GPU con 40GB-80GB de RAM para ejecutarse (por ejemplo, el NVIDIA H100). El nuevo R1 de tamaño completo requiere aproximadamente una docena de GPU de 80 GB.

Deepseek entrenó a Deepseek-R1-0528-Qwen3-8b obteniendo el texto generado por el R1 actualizado y usándolo para ajustar QWEN3-8B. En una página web dedicada para el modelo AI Dev Platform Face-Hugging, Deepseek describe Deepseek-R1-0528-QWen3-8b como «tanto para la investigación académica sobre modelos de inferencias como para el desarrollo industrial que se centra en modelos a pequeña escala».

Deepseek-R1-0528-Qwen3-8b está disponible bajo una licencia MIT aceptable. Esto significa que se puede usar comercialmente sin restricciones. Varios anfitriones, incluido LM Studio, ya ofrecen modelos a través de API.


Source link

Follow on Google News Follow on Flipboard
Share. Facebook Twitter Pinterest LinkedIn Tumblr Email Copy Link
Previous ArticleCompañía de tecnología de sanciones del gobierno de los Estados Unidos involucrada en fraude cibernético
Next Article Con la victoria de Palmer Lucky, Meta y Andrill están trabajando en auriculares de realidad mixta para el ejército
corp@blsindustriaytecnologia.com
  • Website

Related Posts

Cómo ver la nota clave WWDC 2025 de Apple

junio 8, 2025

En WWDC 25, la IA debe compensar con los desarrolladores después de la escasez de IA y las demandas

junio 8, 2025

Los abogados podrían enfrentar sanciones «severas» por las citas generadas por la IA falsa, los tribunales del Reino Unido advierten

junio 7, 2025
Add A Comment
Leave A Reply Cancel Reply

el último

Cómo ver la nota clave WWDC 2025 de Apple

En WWDC 25, la IA debe compensar con los desarrolladores después de la escasez de IA y las demandas

Las nuevas operaciones de malware de la cadena de suministro alcanzan los ecosistemas de NPM y PYPI, apuntando a millones de personas en todo el mundo

Las extensiones de navegador malicioso infectarán a 722 usuarios en América Latina desde principios de 2025

Publicaciones de tendencia

«Lo vemos casi en todas partes» – ¿Covid está de regreso?

junio 6, 2025

George P. Johnson fortalece la alineación global con los nombramientos de liderazgo estratégico

junio 6, 2025

Las 5 principales historias de la semana de la semana

junio 6, 2025

Suscríbete a las noticias

Suscríbete a nuestro boletín informativo y no te pierdas nuestras últimas noticias.

Suscríbete a mi boletín informativo para recibir nuevas publicaciones y consejos. ¡Manténgase al día!

Noticias Fyself es un medio digital dedicado a brindar información actualizada, precisa y relevante sobre los temas que están moldeando el futuro: economía, tecnología, startups, invenciones, sostenibilidad y fintech.

el último

Las 10 principales nuevas empresas y noticias de financiación tecnológica para los extremos semanales el 6 de junio de 2025

El Auge de las Salidas a Bolsa Cripto Comienza: Gracias a la Espectacular OPI de Circle

Pedido OpenAI para mantener todos los registros de chatgpt, incluidos chats temporales eliminados, solicitudes de API

Facebook X (Twitter) Instagram Pinterest YouTube
  • Home
  • Contáctenos
  • DMCA
  • Política de Privacidad
  • Sobre Nosotros
  • Términos y Condiciones
  • 📢 Anúnciate con Nosotros
  • Enviar publicaciones
© 2025 noticias.fyself. Designed by noticias.fyself.

Escribe arriba y pulsa Enter para buscar. Pulsa Esc para cancelar.