DeepSeekは2月11日にWeb版とアプリ版を段階的に更新し、14日に新長文モデル構造のテストを正式発表。最大100万トークンの超長文対応と、2025年5月までのナレッジベース更新を実装。ただしAPIはV3.2版のまま128K対応。業界では次期V4モデル発表前の技術予熱と負荷テストと見られ、V4への期待が高まる。....
国産AIチップと大規模モデルの連携最適化で重要な進展。Moore Threadsと硅基流动が国産GPU MTT S5000を基に、千億パラメータモデルDeepSeek V3 671Bへの深い適配に成功。FP8低精度推論技術により、単一カードで事前入力処理能力は4000トークン/秒以上、デコード処理能力は1000トークン/秒以上を達成し、推論速度は国際的な主要高性能AIアクセラレータに迫る水準に。....
DeepSeekがGitHubでFlashMLAコードを更新し、未知のモデル「MODEL1」を示す識別子が多数発見された。既存のV3.2と並記されており、新たなモデル系列の可能性が示唆されている。....
騰訊が自社開発の大型モデル「混元2.0(Tencent HY2.0)」を正式にリリースし、同時にDeepSeek V3.2も段階的に騰訊エコシステムに統合されました。現在、この2つのモデルは元宝、imaなどの騰訊のAIネイティブアプリで最初にローンチされており、騰訊クラウドも関連モデルのAPIおよびプラットフォームサービスを同時に公開しています。新たにリリースされたTencent HY2.0はミックスエキスパート(MoE)アーキテクチャを採用しており、総パラメータ数は4...
DeepSeek R1およびV3モデルに基づくブラウザサイドバーAIツールで、質疑応答、創作、翻訳などの機能を提供します。
Kie.aiは、DeepSeek R1およびV3 APIを統合し、安全で拡張性の高いAIソリューションを提供します。
Deepseek
$4
入力トークン/百万
$12
出力トークン/百万
128
コンテキスト長
$16
32
Tencent
$0.8
$2
$8
Alibaba
-
$1.6
$1
8
Baidu
64
$100
kathywu95
これはDeepSeek - V3アーキテクチャに基づくランダムウェイト生成モデルで、テストと開発目的に特化しています。モデルはランダムに初期化されたウェイトを使用し、パラメータ規模が削減されており、迅速なプロトタイプ開発と機能検証に適しています。
prithivMLmods
Mintaka-Qwen3-1.6B-V3.1は、科学的推論に特化した効率的なモデルで、Qwen-1.6Bをベースに構築され、DeepSeek v3.1合成軌跡(10,000件の記録)で訓練されました。ランダムイベントのシミュレーション、論理問題の分析、構造化された科学的推論に最適化されており、記号精度と軽量デプロイのバランスを取っています。
nvidia
これはDeepSeek AIのDeepSeek V3-0324モデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、FP4量子化技術によりモデルサイズとGPUメモリ要件を大幅に削減し、AIエージェントシステムやチャットボットなどの様々なAIアプリケーションシーンに適しています。
QuixiAI
DeepSeek V3 0324のAWQ量子化バージョンで、Eric Hartfordとv2rayによって量子化処理が行われました。このバージョンでは、float16を使用した際に発生するオーバーフロー問題が修正され、モデル性能が最適化され、8枚の80GB GPUで完全な文脈長での実行がサポートされています。
DeepSeek V3のAWQ量子化バージョンで、float16使用時のオーバーフロー問題を改善し、8枚の80GB GPUでvLLMを使用した効率的なサービスに適しています。
DeepSeek - V3モデルを使用したMCPデモプロジェクトで、コマンドラインで対話して天気情報を照会し、警報や天気予報の取得機能をサポートします。