楽天グループがAIモデル「楽天AI 3.0」を発表し、日本最大規模と主張。しかし、オープンソースライセンスの削除が問題視され、コミュニティから批判が発生。モデルはDeepSeek-V3の微調であり、処理方法にコンプライアンス上の懸念が指摘されている。....
Mistral CEOが中国のDeepSeek-V3が自社アーキテクチャに基づくと主張し、AI革新の帰属を巡る議論を引き起こした。焦点はスパースMoE技術が借用か自主革新かにある。....
DeepSeek-V3.2正式版と極限推論版が同時リリース。Web、アプリ、APIをワンクリックで切り替え可能。最大の特徴は「思考プロセス」と「ツール呼び出し」の深層統合で、長鎖推論と効率的タスク実行を両立。....
12月1日、中国AI企業深度求索がDeepSeek-V3.2シリーズを発表。革新的なスパースアテンション機構を採用し、長文処理の計算コストを削減。エージェント機能を強化し、GPT-5やGemini 3.0 Proなどの世界トップAIモデルに対抗を目指す。....
様々な対話アプリケーションに適した、強力なテキスト生成モデルです。
DeepSeek-V3/R1推論システムは大規模AIモデルの最適化向けに設計された高性能な分散推論アーキテクチャです。
Deepseek-V3とPlayHT TTS技術を用いた、オープンソースのNotebookLM実装です。
6710億パラメータを持つMixture-of-Experts言語モデルです。
Deepseek
$4
入力トークン/百万
$12
出力トークン/百万
128
コンテキスト長
$2
$8
32
$1
-
8
moxin-org
このプロジェクトでは、DeepSeek-V3-0324に対してllama.cppの混合精度量子化を行い、モデルのエッジデバイスへのデプロイの難題を解決し、モデルの実行効率とリソース利用率を向上させました。
kathywu95
これはDeepSeek - V3アーキテクチャに基づくランダムウェイト生成モデルで、テストと開発目的に特化しています。モデルはランダムに初期化されたウェイトを使用し、パラメータ規模が削減されており、迅速なプロトタイプ開発と機能検証に適しています。
QuantTrio
DeepSeek-V3.2-Exp-AWQはDeepSeek-V3.2-Expモデルに基づく量子化バージョンで、vLLMフレームワークを通じて効率的なテキスト生成を実現します。このモデルはDeepSeek疎な注意力メカニズムを導入し、長文脈の訓練と推論の効率を著しく向上させると同時に、モデルの出力品質を維持しています。
deepseek-ai
トランスフォーマーライブラリは強力な自然言語処理ツールライブラリで、豊富な事前学習モデルと使いやすいインターフェースを提供し、テキスト生成、分類、翻訳などのNLPタスクに広く利用され、開発効率を大幅に向上させます。
DeepSeek-V3.1はDeepSeek-V3.1-Baseをベースに事後学習を行った大規模言語モデルで、128Kのコンテキスト長を持ち、混合思考モード、スマートツール呼び出し、コードエージェント機能をサポートしています。このモデルは複数のベンチマークテストで優れた成績を収めており、特に数学的推論、コード生成、検索エージェントタスクで顕著な向上が見られます。
ubergarm
DeepSeek-V3.1モデルに基づくGGUF形式の量子化バージョンで、ik_llama.cppブランチを使用して最適な量子化を行います。このモデルは特定のメモリ使用量で最適な困惑度を達成し、IQ5_KからIQ1_Sまでのさまざまな量子化スキームを提供し、さまざまなメモリとパフォーマンスの要件を満たします。
bartowski
これはDeepSeek-V3.1モデルの量子化バージョンで、llama.cppのimatrix技術を使用して量子化処理を行い、さまざまなハードウェアでのモデルの実行効率とパフォーマンスを向上させることを目的としています。このバージョンでは、高品質のQ8_0から極低品質のIQ1_Mまで、さまざまな量子化レベルを提供し、さまざまなハードウェア構成とパフォーマンス要件を満たします。
unsloth
DeepSeek-V3.1はDeepSeek-AIが開発した大規模言語モデルで、DeepSeek-V3のアップグレード版です。このモデルは混合思考モードと非思考モードをサポートし、ツール呼び出し、コード生成、数学的推論などの分野で優れた性能を発揮し、128Kのコンテキスト長をサポートします。
mlx-community
これはDeepSeek-V3.1-Baseモデルの4ビット量子化バージョンで、mlx-lmツールを使用して変換され、Apple Siliconチップ用に特別に最適化され、効率的な大規模言語モデルの推論能力を提供します。
DeepSeek-V3.1はDeepSeekチームによって開発された大規模言語モデルで、思考モードと非思考モードをサポートし、複数のベンチマークテストで優れた成績を収め、強力なテキスト理解、生成、推論能力を備えています。
bobchenyx
これはDeepSeek-V3-0324の量子化バージョンで、特定の量子化方法を用いて処理され、様々なシナリオでより効率的な使用を実現することを目的としており、性能と効率をバランスさせるために複数の量子化仕様をサポートしています。
nvidia
これはDeepSeek AIのDeepSeek V3-0324モデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用し、FP4量子化技術によりモデルサイズとGPUメモリ要件を大幅に削減し、AIエージェントシステムやチャットボットなどの様々なAIアプリケーションシーンに適しています。
tngtech
DeepSeek-R1T-Chimeraは、DeepSeek-R1の知能とDeepSeek-V3のトークン効率を組み合わせたオープンソースの重み付けモデルです。
GLM-4-32B-0414はGLMファミリーの新メンバーで、320億パラメータ規模を有し、GPTシリーズやDeepSeek-V3シリーズに匹敵する性能を持ち、ローカル展開をサポートします。
GLM-4-32B-0414は320億のパラメータを持つ大規模言語モデルで、性能はGPT-4oやDeepSeek-V3に匹敵し、中国語と英語をサポートし、卓越したコード生成、関数呼び出し、複雑なタスク処理能力を備えています。
GLM-4-32B-0414はGLMファミリーの新メンバーで、パラメータ規模は320億に達し、GPT-4oやDeepSeek-V3などと同等の性能を持ち、ローカル展開をサポートしています。
DeepSeek-V3-0324 は Unsloth が提供する動的量子化バージョンで、llama.cpp、LMStudio などの推論フレームワークで実行可能です。
ByteDance-Seed
DeepSeek-V3アーキテクチャに基づく90億パラメータの大規模言語モデルで、完全にオープンソースかつ英語のみの3500億以上のトークンデータセットを使用してゼロからトレーニングされ、オープンソースコミュニティの開発とデバッグのために設計されています。
AlphaGaO
これは完全に訓練されていない実験的なモデルで、主に研究目的で使用され、モデル融合技術によって作成され、正常な機能を回復するには特定の修復プロセスが必要です。
zai-org
GLM-4-32B-Base-0414はGLMファミリーの新メンバーで、320億のパラメータを持ち、15Tの高品質データで事前学習されています。その性能は、GPT-4oやDeepSeek-V3などの先進モデルと匹敵します。このモデルは、簡単なローカルデプロイをサポートし、コード生成、関数呼び出し、検索型QAなどの分野で優れた性能を発揮します。
DeepSeek-V3をベースに開発されたMCP天気情報取得エージェントプロジェクトで、APIキーを設定してクライアントスクリプトを実行することで機能を実現します。