テンセントは「Training-Free GRPO」技術を発表し、パラメータの微調整を代替する外部知識ベースを通じて、モデルのパラメータを凍結した状態で性能を最適化しています。この手法では経験知識をトークンレベルの事前情報に変換し、トレーニングコストを大きく削減しています。DeepSeek-V3.1-Terminusモデルにおいて、高価な微調整と同等の向上効果を達成しています。
DeepSeekがオープンソースモデルDeepSeek-V3.1-Terminusをリリース。言語不一致や異常文字の問題を修正し、プログラミングと検索エージェントの性能を最適化。ベンチマークで非エージェントタスクでの優れた性能を確認。....
平安証券報告によると、DeepSeek-V3.1大規模モデルが正式リリースされ、新パラメータ精度で効率と性能を向上。国産チップ発展を促進し、技術協調により実用性を強化。....
QQブラウザにDeepSeek-V3.1技術を導入し、「AIダウンロードアシスタント」機能に優先適用。ダウンロード効率と成功率を大幅に向上させ、資料、ソフト、動画など多様なファイルタイプに対応し、ユーザーに迅速で効率的なダウンロード体験を提供。....
QuantTrio
DeepSeek-V3.1はDeepSeek-V3.1-Baseをベースに事後学習を行った大規模言語モデルで、128Kのコンテキスト長を持ち、混合思考モード、スマートツール呼び出し、コードエージェント機能をサポートしています。このモデルは複数のベンチマークテストで優れた成績を収めており、特に数学的推論、コード生成、検索エージェントタスクで顕著な向上が見られます。
ubergarm
DeepSeek-V3.1モデルに基づくGGUF形式の量子化バージョンで、ik_llama.cppブランチを使用して最適な量子化を行います。このモデルは特定のメモリ使用量で最適な困惑度を達成し、IQ5_KからIQ1_Sまでのさまざまな量子化スキームを提供し、さまざまなメモリとパフォーマンスの要件を満たします。
bartowski
これはDeepSeek-V3.1モデルの量子化バージョンで、llama.cppのimatrix技術を使用して量子化処理を行い、さまざまなハードウェアでのモデルの実行効率とパフォーマンスを向上させることを目的としています。このバージョンでは、高品質のQ8_0から極低品質のIQ1_Mまで、さまざまな量子化レベルを提供し、さまざまなハードウェア構成とパフォーマンス要件を満たします。
unsloth
DeepSeek-V3.1はDeepSeek-AIが開発した大規模言語モデルで、DeepSeek-V3のアップグレード版です。このモデルは混合思考モードと非思考モードをサポートし、ツール呼び出し、コード生成、数学的推論などの分野で優れた性能を発揮し、128Kのコンテキスト長をサポートします。
mlx-community
これはDeepSeek-V3.1-Baseモデルの4ビット量子化バージョンで、mlx-lmツールを使用して変換され、Apple Siliconチップ用に特別に最適化され、効率的な大規模言語モデルの推論能力を提供します。
deepseek-ai
DeepSeek-V3.1はDeepSeekチームによって開発された大規模言語モデルで、思考モードと非思考モードをサポートし、複数のベンチマークテストで優れた成績を収め、強力なテキスト理解、生成、推論能力を備えています。