最好的redhat AI工具模型_精選redhat資訊 - AIBase

模型

Llama 4 Maverick 17B 128E Instruct NVFP4

RedHatAI

Llama-4-Maverick-17B-128E-Instruct-NVFP4是一個經過FP4量化處理的多語言大語言模型，基於Meta-Llama-3.1架構，專為商業和研究用途設計。該模型通過將權重和激活量化為FP4數據類型，顯著減少了磁盤空間和GPU內存需求，同時保持較好的性能表現。

自然語言處理

Safetensors

Safetensors多語言

Mistral Small 3.2 24B Instruct 2506 NVFP4

RedHatAI

這是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本，通過將權重和激活函數量化為FP4數據類型，減少了磁盤大小和GPU內存需求，同時支持vLLM推理。在多個任務上進行了評估以與未量化模型對比質量。

自然語言處理

Safetensors

Safetensors多語言

Qwen3 VL 235B A22B Instruct NVFP4

RedHatAI

這是Qwen3-235B-A22B-Instruct-2507模型的量化版本，通過將權重和激活量化為FP4數據類型，顯著降低了磁盤大小和GPU內存需求，同時保持與原始模型相近的性能表現。

自然語言處理

Safetensors

Safetensors多語言

Llama 3.1 8B Instruct FP8 Block

RedHatAI

這是Meta Llama-3.1-8B-Instruct模型的FP8量化版本，通過對權重和激活值進行FP8量化，顯著減少了磁盤大小和GPU內存需求，同時保持了良好的模型性能。

自然語言處理

Safetensors

NVIDIA Nemotron Nano 9B V2 FP8 Dynamic

RedHatAI

這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本，通過將權重和激活量化為FP8數據類型實現優化，顯著減少磁盤大小和GPU內存需求約50%，同時保持出色的文本生成性能。

自然語言處理

Transformers

Transformers多語言

Qwen3 VL 235B A22B Instruct FP8 Block

RedHatAI

這是Qwen3-VL-235B-A22B-Instruct的量化版本，通過將權重和激活值量化為FP8數據類型，有效減少了磁盤大小和GPU內存需求約50%。支持文本、圖像和視頻輸入，輸出文本，適用於多種自然語言處理和多模態任務。

Safetensors

Qwen3 VL 235B A22B Instruct FP8 Dynamic

RedHatAI

Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本，通過將權重和激活量化為 FP8 數據類型，顯著減少了磁盤大小和 GPU 內存需求，同時保持了較高的模型性能。

Safetensors

Qwen3 32B Speculator.eagle3

RedHatAI

這是一個基於EAGLE-3推測解碼算法的推測器模型，專門設計用於與Qwen/Qwen3-32B模型配合使用，通過推測解碼技術提升文本生成效率，在數學推理和通用問答方面有良好表現。

自然語言處理

Transformers

Devstral Small 2507 Quantized.w8a8

RedHatAI

這是Devstral-Small-2507模型的INT8量化版本，通過將權重和激活值量化為8位整數，顯著降低了GPU內存和磁盤空間需求約50%，同時保持了良好的編碼任務性能。

自然語言處理

Safetensors

Safetensors英語

Devstral Small 2507 FP8 Dynamic

RedHatAI

Devstral-Small-2507-FP8-Dynamic是通過將Devstral-Small-2507的權重和激活量化為FP8數據類型而獲得的優化模型，能夠有效減少GPU內存和磁盤大小需求約50%，同時保持接近原始模型的性能表現。

自然語言處理

Safetensors

Safetensors英語

Voxtral Mini 3B 2507 FP8 Dynamic

RedHatAI

Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本，針對語音轉錄、翻譯和音頻理解進行了優化，採用 FP8 數據類型量化。該模型具有強大的音頻理解能力，能處理多種與音頻相關的任務。

Safetensors

Safetensors多語言

Gpt Oss 20b FP8 Dynamic

RedHatAI

這是unsloth/gpt-oss-20b-BF16模型的量化版本，採用FP8動態量化技術，具備高效的推理能力，專注於文本生成任務

自然語言處理

Transformers

Llama 3.3 70B Instruct NVFP4

RedHatAI

Meta-Llama-3.3-70B-Instruct-NVFP4 是 Meta-Llama-3.3-70B-Instruct 的量化版本，通過將權重和激活量化為 FP4 數據類型，顯著減少了磁盤大小和 GPU 內存需求，同時保持較高的性能表現。該模型支持多語言，適用於商業和研究用途。

自然語言處理

Safetensors

Safetensors多語言

Gemma 3n E2B It Quantized.w4a16

RedHatAI

這是 Google Gemma-3n-E2B-it 模型的量化版本，通過將權重量化為 INT4 數據類型進行優化，可使用 vLLM 框架進行高效推理。該模型支持音頻-視覺-文本多模態輸入，輸出為文本。

Transformers

Gemma 3n E2B It FP8 Dynamic

RedHatAI

這是一個基於Google Gemma-3n-E2B-it的量化版本模型，採用FP8數據類型進行權重和激活量化，支持音頻、視覺和文本多模態輸入，輸出為文本。模型通過vLLM實現高效部署，在保持高精度的同時顯著提升推理效率。

Transformers

Gemma 3n E4B It FP8 Dynamic

RedHatAI

這是對 Google Gemma 3N E4B IT 模型進行 FP8 動態量化的版本，通過將權重和激活值量化為 FP8 數據類型，顯著提升了推理效率，同時保持了原始模型的性能。支持多模態輸入（文本、圖像、音頻、視頻）和文本輸出。

Safetensors

Safetensors多語言

SmolLM3 3B FP8 Dynamic

RedHatAI

RedHatAI開發的SmolLM3-3B模型的FP8量化版本，通過將權重和激活值量化為FP8數據類型，顯著減少GPU內存需求和磁盤空間佔用，同時提升計算吞吐量。

自然語言處理

Safetensors

Safetensors多語言

Llama 3.1 8B Instruct Speculator.eagle3

RedHatAI

這是一個基於EAGLE-3推測解碼算法的文本生成模型，專為與meta-llama/Llama-3.1-8B-Instruct配合使用而設計。通過推測解碼技術提升文本生成效率，支持多種語言。

自然語言處理

Safetensors

Safetensors多語言

Qwen3 8B Speculator.eagle3

RedHatAI

專為Qwen/Qwen3-8B設計的推測解碼模型，採用EAGLE-3算法提升文本生成效率和質量，通過多個優質數據集訓練獲得優秀的泛化能力

自然語言處理

Transformers

Llama 4 Maverick 17B 128E Instruct Quantized.w4a16

RedHatAI

基於Llama-4架構的17B參數大語言模型，通過INT4權重量化技術優化，減少了75%的GPU內存和磁盤空間需求，支持多語言文本生成任務，可高效部署於vLLM推理框架。

Safetensors

Safetensors多語言

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2025AIBase

商務合作網站地圖