中国企業DeepSeekが開発した推論モデルDeepSeek-R1が世界中で注目を集める中、サードパーティプラットフォームにおけるその安定性が、近年のテクノロジー業界におけるホットトピックとなっています。Xプラットフォーム上の最新の議論や評価データによると、DeepSeek-R1のパフォーマンスはホスティングプラットフォームによって大きく異なり、完全性、正確性、推論時間はプラットフォームの選択によって変化します。この現象は、モデルの展開の複雑さを示すだけでなく、ユーザーにとって適切なホスティングサービスを選択するための重要な参考資料にもなります。

テスト背景と方法

Xユーザーや専門の評価機関からのフィードバックによると、DeepSeek-R1のクロスプラットフォーム安定性テストが最近注目を集めています。このテストは、中国ソフトウェア評価センター人工知能部が主導し、ナノAIサーチ、阿里百煉、シリコンベースフローなど、国内外の10以上のサードパーティプラットフォームを選択しました。基準として、SuperCLUEチームが開発した20の基本的な数学推論問題を使用しました。評価は、応答率、正確性、推論時間の3つの側面に焦点を当て、無料サービスと有料サービスの違いも分析しました。

DeepSeek

画像注記:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyから提供されています。

テスト結果:安定性の違いが顕著

テストの結果、DeepSeek-R1の安定性はホスティングプラットフォームに大きく依存することが示されました。ナノAIサーチは、「フルバージョン」のDeepSeek-R1を導入し、無料で提供しているため、特に優れたパフォーマンスを示しました。Xユーザーの@op7418は2月27日の投稿で、「ナノAIサーチは、いち早くフルバージョンのDeepSeek-R1を導入し、評価において優れた結果を示しました」と述べています。このプラットフォームは、高い応答率と安定した出力で好評を得ており、周鴻禕氏の「AI普及化」という理念の実践と見なされています。

しかし、他のプラットフォームのパフォーマンスは必ずしも満足のいくものではありませんでした。Xユーザーの@simonkuang938は2月24日、阿里百煉のDeepSeek-R1は、複雑な論理タスク(グラフやフローチャートの作成など)の処理時に、メモリ消費量が多すぎるために出力処理が中断され、クライアントがフリーズすることが多いと指摘しました。接続は切断されませんでしたが、彼はこの体験を「ちょっとイラっとする」と表現し、一部ユーザーの安定性に対する不満を表しています。

一方、シリコンベースフローは、無料利用を制限し、安定した有料版を提供しているため、@simonkuang938から肯定的な評価を得ています。彼は2月22日に、「シリコンベースフローのように良心的なプラットフォームは少ないです。R1はフルバージョンで、改造もされていません」と述べています。これは、有料サービスの方が安定性が高い可能性を示唆しています。

ユーザーエクスペリエンスと技術的な詳細

X上のユーザーフィードバックから見ると、DeepSeek-R1は様々な場面で異なるパフォーマンスを示します。@changli71829684は2月25日、R1は一度の会話で3000文字を超えると無限ループに陥りやすいと述べています。情報密度は高いので知識探求には適していますが、正確性と生成品質はやや不足しています。彼は、このモデルは正確なタスクではなく「発想を広げる」ことに適していると述べています。さらに、@oran_geは1月29日にDeepSeek R1Zeroをテストした際に、教師なし微調整(SFT)されていないバージョンが簡単な質問に対して奇妙な反応を示すことを発見しました。「こんにちは」と入力すると数学の式を出力するなど、特定の状況下でのモデルの不安定性を示しています。

注目すべきは、一部のユーザーがR1のユーザーエクスペリエンスを最適化しようと試みていることです。@oran_geは2月12日、API接続によるソリューションを共有し、「実際にテストしたところ、最も安定していて速度が速いR1のユーザーエクスペリエンス」であり、フリーズと接続の問題を完全に解決したと述べています。この試みは、プラットフォーム以外の技術的な設定も安定性に影響を与える可能性を示しています。

業界への影響とユーザーからの提案

今回のクロスプラットフォームテストは、DeepSeek-R1の展開における課題を明らかにしただけでなく、オープンソースモデルの商業化と安定性に関する議論を引き起こしました。Xユーザーは一般的に、DeepSeek-R1は数学とプログラミングのベンチマークテストで優れたパフォーマンスを示している(MATH-500スコア97.3%など)ものの、実際のアプリケーションにおける安定性は依然として最適化が必要であると考えています。無料サービスのトラフィックの圧力と高負荷により、パフォーマンスが低下する可能性があり、有料プラットフォームはリソースの割り当てによってより信頼性の高いエクスペリエンスを提供しています。

これに対して、業界関係者は、ユーザーはニーズに合わせてホスティングプラットフォームを選択するよう推奨しています。高い応答率と完全な出力を求める開発者にとって、ナノAIサーチやシリコンベースフローなどの安定したサービスは良い選択肢です。一方、複雑な推論タスクを処理する必要があるユーザーにとっては、有料プラットフォームの方がニーズを満たせる可能性があります。同時に、DeepSeek公式には、無料サービスの混雑問題を軽減するために、より多くのハードウェアサポートまたは有料レベルを提供することが求められています。これは、@GrayPsycheが2月8日の投稿で期待していたことと同じです。

DeepSeek-R1のサードパーティプラットフォームにおける安定性評価は、重要な事実を明らかにしました。それは、モデルの可能性は大きいものの、実際の性能はホスティング環境によって異なるということです。ナノAIサーチの高効率な無料サービスから、阿里百煉の出力中断の問題、そしてシリコンベースフローの安定した有料エクスペリエンスまで、ユーザーはコストとパフォーマンスを比較検討して選択する必要があります。AI技術の普及に伴い、DeepSeek-R1の今後の発展とその世界市場における競争力は、これらの安定性の課題を解決できるかどうかにかかっている可能性があります。Xプラットフォームでの活発な議論は続いており、このトピックは間違いなく業界の注目を集め続けるでしょう。