Deepseek puede haber entrenado los últimos modelos utilizando Géminis de Google

La semana pasada, el laboratorio chino Deepseek lanzó una versión actualizada del modelo de AI de razonamiento R1 que funciona bien con muchas matemáticas y puntos de referencia de codificación. La compañía no reveló la fuente de los datos que utilizó para capacitar a los modelos, pero algunos investigadores de IA especulan que al menos parcialmente provienen de IA en la familia Gemini de Google.

Sam Paech, un desarrollador con sede en Melbourne que crea la evaluación de «inteligencia emocional» de la IA, ha publicado lo que dice que es evidencia de que el último modelo de Deepseek ha sido entrenado para la producción de Gemini. El modelo Deepseek, llamado R1-0528, prefiere palabras y expresiones similares a los favores Gemini 2.5 Pro de Google, dijo Paech en el X-Post.

Si se pregunta por qué el nuevo Deepseek R1 suena un poco diferente, creo que probablemente hayan cambiado de entrenamiento con OpenAi sintética a salida de Géminis sintética. pic.twitter.com/oex9roapnv

– Sam Paech (@sam_paech) 29 de mayo de 2025

No es una pistola humeante. Sin embargo, señaló que otro desarrollador, el rastro del modelo de Deepseek, el creador seudónimo de la «Evaluación de libertad de expresión de la IA», llamada Speechmap, el «pensamiento» que genera el modelo cuando funciona hacia conclusiones, «lee como rastros de Gemini».

Deepseek ha sido acusado previamente de capacitar en datos de modelos de IA rivales. En diciembre, los desarrolladores observaron que el modelo V3 de Deepseek a menudo se identifica como ChatGPT, la plataforma de chatbot con AI de OpenAI, lo que sugiere que puede estar capacitado en el registro de chat de ChatGPT.

A principios de este año, Openai le dijo a The Financial Times que encontró evidencia que vinculaba a Deepseek con el uso de la destilación. Según Bloomberg, Microsoft, un colaborador e inversor de OpenAI, detectó una gran cantidad de datos que se excluyeron a través de su cuenta de desarrollador de OpenAI a fines de 2024. OpenAI cree que está afiliado a Deepseek.

La destilación no es una práctica poco común, pero los términos de servicio de OpenAI prohíben que los clientes usen la producción modelo de compañía para construir IA competitiva.

Para ser claros, muchos modelos se identifican erróneamente y convergen con la misma palabra y frases de turno. Esto se debe a que Open Web, un lugar donde las compañías de IA obtienen la mayoría de sus datos de capacitación, está disperso con Slops de IA. Las granjas de contenido están utilizando AI para crear clickbait, y los bots están inundando Reddit y X.

Esta «contaminación» hizo que fuera extremadamente difícil filtrar a fondo la salida AI del conjunto de datos de entrenamiento si es así.

Aún así, expertos en IA como Nathan Lambert, investigador del Instituto de AI sin fines de lucro AI2, no piensan que Deepseek capacitó a datos de Géminis de Google fuera de problemas.

«Si fuera profundo, definitivamente crearía una tonelada de datos sintéticos de los mejores modelos de API», escribió Lambert en la publicación de X.

Si fuera profundo, definitivamente crearía una tonelada de datos sintéticos de los mejores modelos API que existen. Están cortos en la GPU y son al ras de efectivo. Es literalmente más eficiente para ellos más cálculos. Sí, sobre las preguntas de Gemini Distill.

– Nathan Lambert (@natolambert) 3 de junio de 2025

En algunos casos, las compañías de IA están aumentando sus medidas de seguridad para evitar la destilación.

En abril, OpenAI comenzó a solicitar a las organizaciones que completen el proceso de verificación de identidad para acceder a ciertos modelos avanzados. Este proceso requiere una identificación emitida por el gobierno de uno de los países respaldados por la API de OpenAI. China no está en la lista.

En otros lugares, Google lanzó recientemente un «resumen» de rastros generados por los modelos disponibles a través de la plataforma AI Studio Developer. En mayo, la humanidad dijo que comenzaría a resumir los rastros de su propio modelo, citando la necesidad de proteger los «beneficios competitivos».

Me pondré en contacto con Google para hacer comentarios y actualizar este artículo si recibo una respuesta.

Source link

What's Hot

¿Debería el gobierno prohibir a los humanos generados por IA para detener el colapso de la confianza social?

Los abogados podrían enfrentar sanciones «severas» por las citas generadas por la IA falsa, los tribunales del Reino Unido advierten

CEO de Superblocks: cómo estudiar las indicaciones del sistema de IA y encontrar ideas de unicornio

Deepseek puede haber entrenado los últimos modelos utilizando Géminis de Google

Los abogados podrían enfrentar sanciones «severas» por las citas generadas por la IA falsa, los tribunales del Reino Unido advierten

CEO de Superblocks: cómo estudiar las indicaciones del sistema de IA y encontrar ideas de unicornio

Después de que se eliminan los datos, los cofundadores de Kiranapro no pueden descartar hacks externos

Los abogados podrían enfrentar sanciones «severas» por las citas generadas por la IA falsa, los tribunales del Reino Unido advierten

CEO de Superblocks: cómo estudiar las indicaciones del sistema de IA y encontrar ideas de unicornio

Morgan Stanley actualiza el stock minero como la mejor elección para jugar Rare Earth

«Familia Bitcoin» cambió su seguridad después de la reciente criptomoneda

«Lo vemos casi en todas partes» – ¿Covid está de regreso?

George P. Johnson fortalece la alineación global con los nombramientos de liderazgo estratégico

Las 5 principales historias de la semana de la semana

el último

Las 10 principales nuevas empresas y noticias de financiación tecnológica para los extremos semanales el 6 de junio de 2025

El Auge de las Salidas a Bolsa Cripto Comienza: Gracias a la Espectacular OPI de Circle

Pedido OpenAI para mantener todos los registros de chatgpt, incluidos chats temporales eliminados, solicitudes de API

What's Hot

Deepseek puede haber entrenado los últimos modelos utilizando Géminis de Google

Related Posts