Nvidiaが小型言語モデルNemotron-Nano-9B-v2を発表。9億パラメータで、単一A10GPUで効率的に動作。混合アーキテクチャ採用し、実用展開に対応。....
NVIDIAは小型言語モデル「Nemotron-Nano-9B-V2」を発表。90億パラメータで効率的な推論向けに設計され、複数のベンチマークで優れた性能を示し、一部では最高水準を達成。MITやGoogleの小型AIモデルと競合し、スマートウォッチやスマホなどに適応。....
Nvidiaが小型言語モデル「Nemotron-Nano-9B-v2」を発表。90億パラメータで前世代比30億削減、単一A10GPU向けに最適化。ベンチマークで優れた性能を発揮し、推論処理速度は最大6倍向上。....
NVIDIAは2025年6月3日にLlama Nemotron Nano VLを正式に発表しました。これは複雑なドキュメント、チャート、フレームの処理に特化した高効率なコンパクトな視覚言語モデル(VLM)です。OCRBench v2ベンチマークテストでトップに立っており、その卓越した性能を示しています。効率的な推論性能と柔軟な展開方法により、企業はクラウド環境から
効率的な推論とチャットを可能にする大規模言語モデルです。
Common Crawlを精緻化した、大規模言語モデルの長期事前学習用データセット
マルチモーダル音声大規模言語モデル
NVIDIAがカスタマイズした大規模言語モデルで、問い合わせへの回答の有用性を向上させます。
nvidia
-
入力トークン/百万
出力トークン/百万
128k
コンテキスト長
mistral
$1.08
NVIDIA Nemotron Nano v2 12B VLは強力なマルチモーダルビジュアル言語モデルで、多画像推論と動画理解をサポートし、文書インテリジェンス、ビジュアル質問応答、要約機能を備え、商用に使用できます。
Llama Nemotron Reranking 1BはNVIDIAが開発した、テキスト検索の再ランキングに特化したモデルです。Llama-3.2-1Bアーキテクチャをベースに微調整されており、クエリと文書のペアに対して関連性の対数スコアを提供し、多言語と長文書の処理をサポートします。
Llama Nemotron Embedding 1Bモデルは、NVIDIAが開発した、多言語およびクロス言語のテキスト質問応答検索に最適化された埋め込みモデルです。26言語をサポートし、最大8192トークンの文書を処理でき、動的な埋め込みサイズによりデータストレージの占有を大幅に削減できます。
mlx-community
これはNVIDIA Nemotronアーキテクチャに基づく49Bパラメータの大規模言語モデルで、MLX形式に変換され、4ビット量子化が行われており、Apple Siliconチップ用に特別に最適化され、効率的なテキスト生成能力を提供します。
unsloth
NVIDIA Nemotron Nano 9B v2 は NVIDIA が開発した高性能な大規模言語モデルで、Mamba2-Transformer 混合アーキテクチャを採用し、多言語推論とチャットタスクをサポートし、複数のベンチマークテストで優れた性能を発揮し、特に実行時の「思考」予算管理機能をサポートしています。
Mungert
NVIDIA Nemotron Nano 12B v2はNVIDIAによって開発された大規模言語モデルで、Mamba2-Transformer混合アーキテクチャを採用し、120億のパラメータを持っています。このモデルは多言語処理をサポートし、複数のベンチマークテストで優れた成績を収めており、特に推論タスクに長けており、実行時の推論予算制御をサポートしています。
cpatonn
NVIDIA Nemotron Nano 12B v2は、NVIDIAによって最初から訓練された大規模言語モデルで、推論および非推論タスク用に設計されています。混合Mamba2-Transformerアーキテクチャを採用し、多言語に対応し、制御可能な推論能力を備えており、ユーザーの要求に応じて推論過程を生成するか、直接答えを提供することができます。
QuantFactory
これはNVIDIA Nemotron Nano 12B v2モデルのGGUF量子化バージョンで、混合Mamba - 2とTransformerアーキテクチャを採用し、多言語推論とチャット機能をサポートし、120億のパラメータを持ち、最大128Kの文脈長をサポートします。
bartowski
これはNVIDIA Nemotron-Nano-12B-v2モデルのLlamacpp imatrix量子化バージョンで、BF16から超低ビットレートのIQ2量子化まで、さまざまな量子化オプションを提供し、ユーザーがさまざまなハードウェア条件でこのモデルを高効率に実行できるように支援します。
これはNVIDIA Nemotron-H-47B-Reasoning-128Kモデルの量子化バージョンで、llama.cppのimatrix技術を使用して最適化されています。このモデルは128Kの文脈長をサポートし、推論タスク用に設計されており、BF16から極低ビットレートまでのさまざまな量子化オプションを提供し、さまざまなハードウェア構成とパフォーマンス要件に適しています。
これはNVIDIA Nemotron-H-8B-Reasoning-128KモデルのLlamacpp imatrix量子化バージョンで、さまざまな量子化タイプのモデルファイルを提供し、さまざまなハードウェアとパフォーマンス要件を満たします。128Kのコンテキスト長をサポートし、推論タスク用に最適化されています。
これはNVIDIA Nemotron-Nano-9B-v2モデルの量子化バージョンで、llama.cpp b6317バージョンを使用して量子化処理が行われています。このモデルは、bf16、Q8_0、Q6_K_Lなどの複数の量子化オプションを提供し、さまざまなハードウェアと使用シナリオに適しており、ユーザーのデプロイと使用を容易にします。
これはNVIDIA Nemotron Nano 9B v2モデルの4ビット量子化バージョンで、Apple Silicon用に最適化され、MLXフレームワークを使用して変換されています。このモデルは90億パラメータの大規模言語モデルで、多言語テキスト生成タスクをサポートしています。
NVIDIA Nemotron Nano 12B v2はNVIDIAによってゼロから訓練された大規模言語モデルで、推論および非推論タスク用に設計されています。このモデルは混合アーキテクチャを採用し、Mamba - 2と注意力層を組み合わせ、多言語処理をサポートし、システムプロンプトによって推論能力を制御することができます。
grimjim
Magnolia-v3-medis-remix-12B-GGUFは、mergekit技術を基に統合された12Bパラメータの量子化モデルで、Mistral Nemoを主要コンポーネントとし、医学的な微調整をノイズコンポーネントとして融合しており、テキスト生成タスクに適しており、Apache-2.0ライセンスを採用しています。
NVIDIA OpenReasoning - Nemotron - 32Bの量子化バージョンで、llama.cppを通じて量子化処理を行い、モデルの保存と計算リソースの要件を削減し、デプロイを容易にします。
lmstudio-community
これはNVIDIA OpenReasoning Nemotron 14Bの量子化バージョンで、bartowskiがllama.cppに基づいてGGUF量子化を提供しています。
これはNVIDIA OpenReasoning Nemotron 7BモデルのGGUF量子化バージョンで、テキスト生成タスクに特化しています。このモデルはLM Studioコミュニティモデルハイライトプログラムを通じて提供され、効率的な推論とデプロイをサポートします。
NVIDIA OpenReasoning - Nemotron - 1.5Bの量子化バージョンで、llama.cppツールを通じて最適化され、さまざまなハードウェアでの実行効率とパフォーマンスが向上します。
これはNVIDIA AceReason - Nemotron - 1.1 - 7Bモデルの量子化バージョンで、異なるハードウェアでのモデルの実行効率を最適化し、一定の性能と品質を維持します。