最近、DeepSeekは最新のR1推論AIモデルのアップデート版をリリースしましたが、このモデルは複数の数学およびプログラミングベンチマークテストで優れたパフォーマンスを示しています。しかし、DeepSeekがモデルのトレーニングデータの出所を明らかにしていないため、一部のAI研究者たちが疑念を持ち始め、そのモデルがGoogleのGemini AIシリーズに基づいて部分的にトレーニングされた可能性があるとの推測が浮上しています。
メルボルンの開発者であるSam Paeach氏は、DeepSeekのR1-0528モデルが言葉遣いや表現方法においてGoogle Gemini2.5Proと多くの共通点があることを発見したと主張しました。これは直接的な証拠ではありませんが、匿名でSpeechMapプロジェクトの創設者とされる別の開発者も、DeepSeekモデルが推論プロセス中に生成する「思考軌跡」がGeminiと非常に似ていることを指摘しました。この発見により、DeepSeekがトレーニングで競合他社のデータを使用している可能性について再び議論が起こっています。
画像出典:AI生成、画像提供サービスMidjourney
昨年12月にも、DeepSeekはV3モデルがしばしば自分自身をOpenAIのChatGPTとして表示するという問題があり、この行為はモデルがChatGPTのチャットログからトレーニングされた可能性を示唆していました。今年の初めには、OpenAIはメディアにDeepSeekが「データ蒸留」技術に関連する証拠を見つけたことを明らかにしました。「データ蒸留」とは、大規模なモデルから情報を抽出して新しいモデルをトレーニングする方法です。ブルームバーグの報道によると、OpenAIのパートナーであるマイクロソフトは2024年末に、多くのデータがOpenAIの開発者アカウントを通じて漏洩したことを発見し、これらのアカウントがDeepSeekに関連している可能性があると述べました。
「蒸留」技術はAI業界では一般的ですが、OpenAIはユーザーがそのモデルの出力を使用して競合製品を構築することを明確に禁止しています。また、オープンネットワークでは低品質のコンテンツが多く存在し、多くのAIモデルがトレーニング中に互いの言い回しや表現を誤って模倣することがあるため、トレーニングデータの出所を詳細に分析することはより複雑になっています。
人工知能の専門家であるNathan Lambert氏は、DeepSeekがGoogle Geminiのデータを使用してトレーニングした可能性を否定しないと述べています。彼はDeepSeekが十分な資金を持っているため、最高級のAPIモデルを利用して合成データを生成できることを指摘しました。このようなデータを蒸留されないよう、AI企業は安全性対策を強化しています。例えば、OpenAIは一部の高度なモデルにアクセスするために組織の身元確認を求めていますが、GoogleもAI Studioプラットフォームの安全性を高め、モデル生成軌跡へのアクセスを制限しようとしています。