テンセントクラウドは、2025年11月24日にDeepSeek-V3およびDeepSeek-R1モデルを終了すると発表しました。その際、すべての接続サービスが停止されます。公式には、ユーザーに対して最新安定バージョンへの移行を推奨しており、大規模モデル技術の継続的なアップグレードに合わせるよう呼びかけています。
テンセントは「Training-Free GRPO」技術を発表し、パラメータの微調整を代替する外部知識ベースを通じて、モデルのパラメータを凍結した状態で性能を最適化しています。この手法では経験知識をトークンレベルの事前情報に変換し、トレーニングコストを大きく削減しています。DeepSeek-V3.1-Terminusモデルにおいて、高価な微調整と同等の向上効果を達成しています。
DeepSeek-V3.2-Exp実験モデルをリリース。160Kコンテキスト長対応で価格50%以上削減。V3.1-Terminusを最適化し、長文処理効率を向上。....
寒武紀はDeepSeek-V3.2-Exp実験モデルを適応し、vLLM-MLU推論エンジンをオープンソース化。AI技術の発展を促進し、開発者向け新ツールを提供、業界の信頼性向上に貢献。....
様々な対話アプリケーションに適した、強力なテキスト生成モデルです。
DeepSeek-V3/R1推論システムは大規模AIモデルの最適化向けに設計された高性能な分散推論アーキテクチャです。
Deepseek-V3とPlayHT TTS技術を用いた、オープンソースのNotebookLM実装です。
6710億パラメータを持つMixture-of-Experts言語モデルです。
deepseek
$1.94
入力トークン/百万
$7.92
出力トークン/百万
128k
コンテキスト長
moxin-org
このプロジェクトでは、DeepSeek-V3-0324に対してllama.cppの混合精度量子化を行い、モデルのエッジデバイスへのデプロイの難題を解決し、モデルの実行効率とリソース利用率を向上させました。
kathywu95
これはDeepSeek - V3アーキテクチャに基づくランダムウェイト生成モデルで、テストと開発目的に特化しています。モデルはランダムに初期化されたウェイトを使用し、パラメータ規模が削減されており、迅速なプロトタイプ開発と機能検証に適しています。
QuantTrio
DeepSeek-V3.2-Exp-AWQはDeepSeek-V3.2-Expモデルに基づく量子化バージョンで、vLLMフレームワークを通じて効率的なテキスト生成を実現します。このモデルはDeepSeek疎な注意力メカニズムを導入し、長文脈の訓練と推論の効率を著しく向上させると同時に、モデルの出力品質を維持しています。
deepseek-ai
トランスフォーマーライブラリは強力な自然言語処理ツールライブラリで、豊富な事前学習モデルと使いやすいインターフェースを提供し、テキスト生成、分類、翻訳などのNLPタスクに広く利用され、開発効率を大幅に向上させます。
DeepSeek-V3.1はDeepSeek-V3.1-Baseをベースに事後学習を行った大規模言語モデルで、128Kのコンテキスト長を持ち、混合思考モード、スマートツール呼び出し、コードエージェント機能をサポートしています。このモデルは複数のベンチマークテストで優れた成績を収めており、特に数学的推論、コード生成、検索エージェントタスクで顕著な向上が見られます。
ubergarm
DeepSeek-V3.1モデルに基づくGGUF形式の量子化バージョンで、ik_llama.cppブランチを使用して最適な量子化を行います。このモデルは特定のメモリ使用量で最適な困惑度を達成し、IQ5_KからIQ1_Sまでのさまざまな量子化スキームを提供し、さまざまなメモリとパフォーマンスの要件を満たします。
bartowski
これはDeepSeek-V3.1モデルの量子化バージョンで、llama.cppのimatrix技術を使用して量子化処理を行い、さまざまなハードウェアでのモデルの実行効率とパフォーマンスを向上させることを目的としています。このバージョンでは、高品質のQ8_0から極低品質のIQ1_Mまで、さまざまな量子化レベルを提供し、さまざまなハードウェア構成とパフォーマンス要件を満たします。
unsloth
DeepSeek-V3.1はDeepSeek-AIが開発した大規模言語モデルで、DeepSeek-V3のアップグレード版です。このモデルは混合思考モードと非思考モードをサポートし、ツール呼び出し、コード生成、数学的推論などの分野で優れた性能を発揮し、128Kのコンテキスト長をサポートします。
mlx-community
これはDeepSeek-V3.1-Baseモデルの4ビット量子化バージョンで、mlx-lmツールを使用して変換され、Apple Siliconチップ用に特別に最適化され、効率的な大規模言語モデルの推論能力を提供します。
DeepSeek-V3.1はDeepSeekチームによって開発された大規模言語モデルで、思考モードと非思考モードをサポートし、複数のベンチマークテストで優れた成績を収め、強力なテキスト理解、生成、推論能力を備えています。
bobchenyx
これはDeepSeek-V3-0324の量子化バージョンで、特定の量子化方法を用いて処理され、様々なシナリオでより効率的な使用を実現することを目的としており、性能と効率をバランスさせるために複数の量子化仕様をサポートしています。
tngtech
DeepSeek-R1T-Chimeraは、DeepSeek-R1の知能とDeepSeek-V3のトークン効率を組み合わせたオープンソースの重み付けモデルです。
GLM-4-32B-0414はGLMファミリーの新メンバーで、320億パラメータ規模を有し、GPTシリーズやDeepSeek-V3シリーズに匹敵する性能を持ち、ローカル展開をサポートします。
GLM-4-32B-0414は320億のパラメータを持つ大規模言語モデルで、性能はGPT-4oやDeepSeek-V3に匹敵し、中国語と英語をサポートし、卓越したコード生成、関数呼び出し、複雑なタスク処理能力を備えています。
GLM-4-32B-0414はGLMファミリーの新メンバーで、パラメータ規模は320億に達し、GPT-4oやDeepSeek-V3などと同等の性能を持ち、ローカル展開をサポートしています。
DeepSeek-V3-0324 は Unsloth が提供する動的量子化バージョンで、llama.cpp、LMStudio などの推論フレームワークで実行可能です。
ByteDance-Seed
DeepSeek-V3アーキテクチャに基づく90億パラメータの大規模言語モデルで、完全にオープンソースかつ英語のみの3500億以上のトークンデータセットを使用してゼロからトレーニングされ、オープンソースコミュニティの開発とデバッグのために設計されています。
AlphaGaO
これは完全に訓練されていない実験的なモデルで、主に研究目的で使用され、モデル融合技術によって作成され、正常な機能を回復するには特定の修復プロセスが必要です。
zai-org
GLM-4-32B-Base-0414はGLMファミリーの新メンバーで、320億のパラメータを持ち、15Tの高品質データで事前学習されています。その性能は、GPT-4oやDeepSeek-V3などの先進モデルと匹敵します。このモデルは、簡単なローカルデプロイをサポートし、コード生成、関数呼び出し、検索型QAなどの分野で優れた性能を発揮します。
GLM-4-32B-0414はGLMファミリーの新メンバーで、320億のパラメータを持つ高性能大規模言語モデルです。このモデルは15Tの高品質データで事前学習され、大量の推論型合成データを含んでおり、コード生成、関数呼び出し、検索質問応答などの複数のタスクシナリオで優れた性能を発揮し、GPT-4oやDeepSeek-V3などのより大規模なモデルと匹敵する性能を持っています。
DeepSeek-V3をベースに開発されたMCP天気情報取得エージェントプロジェクトで、APIキーを設定してクライアントスクリプトを実行することで機能を実現します。