RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4は、FP4量子化処理を施された多言語大規模言語モデルで、Meta-Llama-3.1アーキテクチャに基づいており、商業および研究用途に特化して設計されています。このモデルは、重みと活性化をFP4データ型に量子化することで、ディスク容量とGPUメモリの要件を大幅に削減しながら、良好な性能を維持しています。
これはunsloth/Mistral-Small-3.2-24B-Instruct-2506の量子化バージョンで、重みと活性化関数をFP4データ型に量子化することで、ディスク容量とGPUメモリの要件を削減し、同時にvLLM推論をサポートします。複数のタスクで評価され、非量子化モデルとの品質比較が行われました。
これはQwen3-235B-A22B-Instruct-2507モデルの量子化バージョンで、重みと活性化をFP4データ型に量子化することで、ディスクサイズとGPUメモリ要件を大幅に削減し、同時に元のモデルに近い性能を維持しています。
これはMeta Llama-3.1-8B-InstructモデルのFP8量子化バージョンです。重みと活性化値をFP8で量子化することで、ディスク容量とGPUメモリの要件を大幅に削減し、同時に良好なモデル性能を維持しています。
これはNVIDIA-Nemotron-Nano-9B-v2モデルのFP8動的量子化バージョンで、重みと活性化をFP8データ型に量子化することで最適化を実現し、ディスクサイズとGPUメモリ要件を約50%削減し、同時に優れたテキスト生成性能を維持します。
これはQwen3-VL-235B-A22B-Instructの量子化バージョンで、重みと活性化値をFP8データ型に量子化することで、ディスク容量とGPUメモリの要件を約50%削減します。テキスト、画像、ビデオの入力をサポートし、テキストを出力し、さまざまな自然言語処理とマルチモーダルタスクに適しています。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamicはQwen3-VL-235B-A22B-Instructの量子化バージョンで、重みと活性化をFP8データ型に量子化することで、ディスクサイズとGPUメモリの要件を大幅に削減し、同時に高いモデル性能を維持しています。
これはEAGLE - 3推測デコードアルゴリズムに基づく推測器モデルで、Qwen/Qwen3 - 32Bモデルと連携するように特別に設計されています。推測デコード技術を通じてテキスト生成の効率を向上させ、数学的推論と一般的な質問応答で良好な性能を発揮します。
これはDevstral-Small-2507モデルのINT8量子化バージョンで、重みと活性化値を8ビット整数に量子化することで、GPUメモリとディスク空間の要件を約50%大幅に削減し、同時に良好なコーディングタスクのパフォーマンスを維持しています。
Devstral-Small-2507-FP8-Dynamicは、Devstral-Small-2507の重みとアクティベーションをFP8データ型に量子化することで得られた最適化モデルで、GPUメモリとディスク容量の要件を約50%削減し、同時に元のモデルに近い性能を維持します。
Voxtral-Mini-3B-2507-FP8-dynamicはVoxtral-Mini-3B-2507の量子化バージョンで、音声転写、翻訳、音声理解に最適化され、FP8データ型を使用して量子化されています。このモデルは強力な音声理解能力を持ち、さまざまな音声関連のタスクを処理できます。
これはunsloth/gpt-oss-20b-BF16モデルの量子化バージョンで、FP8動的量子化技術を採用し、高効率な推論能力を備え、テキスト生成タスクに特化しています。
Meta-Llama-3.3-70B-Instruct-NVFP4はMeta-Llama-3.3-70B-Instructの量子化バージョンで、重みと活性化をFP4データ型に量子化することで、ディスクサイズとGPUメモリ要件を大幅に削減しながら、高いパフォーマンスを維持します。このモデルは多言語に対応しており、商業および研究用途に適しています。
これはGoogle Gemma-3n-E2B-itモデルの量子化バージョンで、重みをINT4データ型に量子化することで最適化されており、vLLMフレームワークを使用して効率的な推論が可能です。このモデルはオーディオ - ビジュアル - テキストのマルチモーダル入力をサポートし、出力はテキストです。
これはGoogle Gemma-3n-E2B-itに基づく量子化バージョンのモデルで、FP8データ型を使用して重みと活性化を量子化し、音声、ビジュアル、テキストのマルチモーダル入力をサポートし、出力はテキストです。モデルはvLLMを通じて高効率なデプロイを実現し、高精度を維持しながら推論効率を大幅に向上させます。
これはGoogle Gemma 3N E4B ITモデルをFP8ダイナミック量子化したバージョンで、重みと活性化値をFP8データ型に量子化することで、推論効率を大幅に向上させると同時に、元のモデルの性能を維持しています。マルチモーダル入力(テキスト、画像、音声、ビデオ)とテキスト出力をサポートしています。
RedHatAIが開発したSmolLM3-3BモデルのFP8量子化バージョンで、重みと活性化値をFP8データ型に量子化することで、GPUメモリの要件とディスク空間の占有を大幅に削減し、同時に計算スループットを向上させます。
これはEAGLE - 3推測デコードアルゴリズムに基づくテキスト生成モデルで、meta-llama/Llama-3.1-8B-Instructと一緒に使用するために特別に設計されています。推測デコード技術によりテキスト生成の効率を向上させ、複数の言語をサポートします。
Qwen/Qwen3-8B用に特別に設計された推測デコードモデルで、EAGLE - 3アルゴリズムを採用してテキスト生成の効率と品質を向上させ、複数の優良データセットで訓練され、優れた汎化能力を獲得しています。
Llama-4アーキテクチャに基づく17Bパラメータの大規模言語モデルで、INT4重み量子化技術により最適化され、GPUメモリとディスク空間の必要量を75%削減し、多言語テキスト生成タスクをサポートし、vLLM推論フレームワークに効率的にデプロイできます。