RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一個經過FP4量化處理的多語言大語言模型,基於Meta-Llama-3.1架構,專為商業和研究用途設計。該模型通過將權重和激活量化為FP4數據類型,顯著減少了磁盤空間和GPU內存需求,同時保持較好的性能表現。
這是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通過將權重和激活函數量化為FP4數據類型,減少了磁盤大小和GPU內存需求,同時支持vLLM推理。在多個任務上進行了評估以與未量化模型對比質量。
這是Qwen3-235B-A22B-Instruct-2507模型的量化版本,通過將權重和激活量化為FP4數據類型,顯著降低了磁盤大小和GPU內存需求,同時保持與原始模型相近的性能表現。
這是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通過對權重和激活值進行FP8量化,顯著減少了磁盤大小和GPU內存需求,同時保持了良好的模型性能。
這是NVIDIA-Nemotron-Nano-9B-v2模型的FP8動態量化版本,通過將權重和激活量化為FP8數據類型實現優化,顯著減少磁盤大小和GPU內存需求約50%,同時保持出色的文本生成性能。
這是Qwen3-VL-235B-A22B-Instruct的量化版本,通過將權重和激活值量化為FP8數據類型,有效減少了磁盤大小和GPU內存需求約50%。支持文本、圖像和視頻輸入,輸出文本,適用於多種自然語言處理和多模態任務。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通過將權重和激活量化為 FP8 數據類型,顯著減少了磁盤大小和 GPU 內存需求,同時保持了較高的模型性能。
這是一個基於EAGLE-3推測解碼算法的推測器模型,專門設計用於與Qwen/Qwen3-32B模型配合使用,通過推測解碼技術提升文本生成效率,在數學推理和通用問答方面有良好表現。
這是Devstral-Small-2507模型的INT8量化版本,通過將權重和激活值量化為8位整數,顯著降低了GPU內存和磁盤空間需求約50%,同時保持了良好的編碼任務性能。
Devstral-Small-2507-FP8-Dynamic是通過將Devstral-Small-2507的權重和激活量化為FP8數據類型而獲得的優化模型,能夠有效減少GPU內存和磁盤大小需求約50%,同時保持接近原始模型的性能表現。
Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本,針對語音轉錄、翻譯和音頻理解進行了優化,採用 FP8 數據類型量化。該模型具有強大的音頻理解能力,能處理多種與音頻相關的任務。
這是unsloth/gpt-oss-20b-BF16模型的量化版本,採用FP8動態量化技術,具備高效的推理能力,專注於文本生成任務
Meta-Llama-3.3-70B-Instruct-NVFP4 是 Meta-Llama-3.3-70B-Instruct 的量化版本,通過將權重和激活量化為 FP4 數據類型,顯著減少了磁盤大小和 GPU 內存需求,同時保持較高的性能表現。該模型支持多語言,適用於商業和研究用途。
這是 Google Gemma-3n-E2B-it 模型的量化版本,通過將權重量化為 INT4 數據類型進行優化,可使用 vLLM 框架進行高效推理。該模型支持音頻-視覺-文本多模態輸入,輸出為文本。
這是一個基於Google Gemma-3n-E2B-it的量化版本模型,採用FP8數據類型進行權重和激活量化,支持音頻、視覺和文本多模態輸入,輸出為文本。模型通過vLLM實現高效部署,在保持高精度的同時顯著提升推理效率。
這是對 Google Gemma 3N E4B IT 模型進行 FP8 動態量化的版本,通過將權重和激活值量化為 FP8 數據類型,顯著提升了推理效率,同時保持了原始模型的性能。支持多模態輸入(文本、圖像、音頻、視頻)和文本輸出。
RedHatAI開發的SmolLM3-3B模型的FP8量化版本,通過將權重和激活值量化為FP8數據類型,顯著減少GPU內存需求和磁盤空間佔用,同時提升計算吞吐量。
這是一個基於EAGLE-3推測解碼算法的文本生成模型,專為與meta-llama/Llama-3.1-8B-Instruct配合使用而設計。通過推測解碼技術提升文本生成效率,支持多種語言。
專為Qwen/Qwen3-8B設計的推測解碼模型,採用EAGLE-3算法提升文本生成效率和質量,通過多個優質數據集訓練獲得優秀的泛化能力
基於Llama-4架構的17B參數大語言模型,通過INT4權重量化技術優化,減少了75%的GPU內存和磁盤空間需求,支持多語言文本生成任務,可高效部署於vLLM推理框架。