Recientemente, DeepSeek lanzó una nueva actualización de su modelo de IA de推理 R1, que demostró un excelente rendimiento en varias pruebas de matemáticas y programación. Sin embargo, DeepSeek no reveló la fuente de los datos con los que entrenó el modelo, lo que ha generado preguntas entre algunos investigadores de IA y especulaciones de que el modelo podría haber sido parcialmente entrenado utilizando datos de la serie Gemini AI de Google.

El desarrollador de Melbourne, Sam Paeach, afirmó que descubrió que el modelo R1-0528 de DeepSeek tiene muchas similitudes en el uso de palabras y expresiones con Gemini2.5Pro de Google. Aunque esto no constituye evidencia directa, otro desarrollador — el fundador anónimo del proyecto SpeechMap — también mencionó que las "huellas de pensamiento" generadas por el modelo de DeepSeek durante el proceso de razonamiento son idénticas a las de Gemini. Esta conclusión volvió a suscitar discusiones sobre si DeepSeek utilizó datos de competidores durante el entrenamiento.

DeepSeek

Fuente de la imagen: Imagen generada por IA, proveedor de licencias Midjourney

A principios del año pasado, DeepSeek fue acusado de usar el propio nombre de OpenAI's ChatGPT en su modelo V3, lo que sugiere que el modelo podría haber sido entrenado usando registros de chat de ChatGPT. A principios de este año, OpenAI informó a los medios que había encontrado evidencia relacionada con la tecnología de "destilación de datos", un método para entrenar nuevos modelos extrayendo información de grandes modelos. Según Bloomberg, Microsoft descubrió a finales de 2024 que gran parte de los datos se habían filtrado a través de cuentas de desarrollador de OpenAI, que podrían estar relacionadas con DeepSeek.

A pesar de que la tecnología de "destilación" no es infrecuente en la comunidad de IA, OpenAI ha establecido explícitamente que está prohibido utilizar los resultados de sus modelos para construir productos competitivos. Es importante tener en cuenta que debido al alto contenido de bajo nivel en la red abierta, muchos modelos de IA tienden a imitar incorrectamente los tonos y expresiones de otros durante el entrenamiento, lo que complica aún más el análisis profundo de las fuentes de entrenamiento.

El experto en inteligencia artificial Nathan Lambert considera que no sería imposible que DeepSeek haya utilizado datos de Gemini de Google para su entrenamiento. Mencionó que DeepSeek cuenta con suficiente financiación para aprovechar los mejores modelos API disponibles para generar datos sintéticos. Para evitar que los datos sean destilados, las empresas de IA están implementando continuamente medidas de seguridad. Por ejemplo, OpenAI ya ha comenzado a requerir la verificación de identidad para acceder a ciertos modelos avanzados, mientras que Google también está mejorando la seguridad de su plataforma AI Studio, limitando el acceso a las huellas de generación del modelo.