La semana pasada, el laboratorio chino Deepseek lanzó una versión actualizada del modelo de AI de razonamiento R1 que funciona bien con muchas matemáticas y puntos de referencia de codificación. La compañía no reveló la fuente de los datos que utilizó para capacitar a los modelos, pero algunos investigadores de IA especulan que al menos parcialmente provienen de IA en la familia Gemini de Google.
Sam Paech, un desarrollador con sede en Melbourne que crea la evaluación de «inteligencia emocional» de la IA, ha publicado lo que dice que es evidencia de que el último modelo de Deepseek ha sido entrenado para la producción de Gemini. El modelo Deepseek, llamado R1-0528, prefiere palabras y expresiones similares a los favores Gemini 2.5 Pro de Google, dijo Paech en el X-Post.
No es una pistola humeante. Sin embargo, señaló que otro desarrollador, el rastro del modelo de Deepseek, el creador seudónimo de la «Evaluación de libertad de expresión de la IA», llamada Speechmap, el «pensamiento» que genera el modelo cuando funciona hacia conclusiones, «lee como rastros de Gemini».
Deepseek ha sido acusado previamente de capacitar en datos de modelos de IA rivales. En diciembre, los desarrolladores observaron que el modelo V3 de Deepseek a menudo se identifica como ChatGPT, la plataforma de chatbot con AI de OpenAI, lo que sugiere que puede estar capacitado en el registro de chat de ChatGPT.
A principios de este año, Openai le dijo a The Financial Times que encontró evidencia que vinculaba a Deepseek con el uso de la destilación. Según Bloomberg, Microsoft, un colaborador e inversor de OpenAI, detectó una gran cantidad de datos que se excluyeron a través de su cuenta de desarrollador de OpenAI a fines de 2024. OpenAI cree que está afiliado a Deepseek.
La destilación no es una práctica poco común, pero los términos de servicio de OpenAI prohíben que los clientes usen la producción modelo de compañía para construir IA competitiva.
Para ser claros, muchos modelos se identifican erróneamente y convergen con la misma palabra y frases de turno. Esto se debe a que Open Web, un lugar donde las compañías de IA obtienen la mayoría de sus datos de capacitación, está disperso con Slops de IA. Las granjas de contenido están utilizando AI para crear clickbait, y los bots están inundando Reddit y X.
Esta «contaminación» hizo que fuera extremadamente difícil filtrar a fondo la salida AI del conjunto de datos de entrenamiento si es así.
Aún así, expertos en IA como Nathan Lambert, investigador del Instituto de AI sin fines de lucro AI2, no piensan que Deepseek capacitó a datos de Géminis de Google fuera de problemas.
«Si fuera profundo, definitivamente crearía una tonelada de datos sintéticos de los mejores modelos de API», escribió Lambert en la publicación de X.
En algunos casos, las compañías de IA están aumentando sus medidas de seguridad para evitar la destilación.
En abril, OpenAI comenzó a solicitar a las organizaciones que completen el proceso de verificación de identidad para acceder a ciertos modelos avanzados. Este proceso requiere una identificación emitida por el gobierno de uno de los países respaldados por la API de OpenAI. China no está en la lista.
En otros lugares, Google lanzó recientemente un «resumen» de rastros generados por los modelos disponibles a través de la plataforma AI Studio Developer. En mayo, la humanidad dijo que comenzaría a resumir los rastros de su propio modelo, citando la necesidad de proteger los «beneficios competitivos».
Me pondré en contacto con Google para hacer comentarios y actualizar este artículo si recibo una respuesta.