テンセントは「Training-Free GRPO」技術を発表し、パラメータの微調整を代替する外部知識ベースを通じて、モデルのパラメータを凍結した状態で性能を最適化しています。この手法では経験知識をトークンレベルの事前情報に変換し、トレーニングコストを大きく削減しています。DeepSeek-V3.1-Terminusモデルにおいて、高価な微調整と同等の向上効果を達成しています。
DeepSeekがオープンソースモデルDeepSeek-V3.1-Terminusをリリース。言語不一致や異常文字の問題を修正し、プログラミングと検索エージェントの性能を最適化。ベンチマークで非エージェントタスクでの優れた性能を確認。....