RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一个经过FP4量化处理的多语言大语言模型,基于Meta-Llama-3.1架构,专为商业和研究用途设计。该模型通过将权重和激活量化为FP4数据类型,显著减少了磁盘空间和GPU内存需求,同时保持较好的性能表现。
这是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通过将权重和激活函数量化为FP4数据类型,减少了磁盘大小和GPU内存需求,同时支持vLLM推理。在多个任务上进行了评估以与未量化模型对比质量。
这是Qwen3-235B-A22B-Instruct-2507模型的量化版本,通过将权重和激活量化为FP4数据类型,显著降低了磁盘大小和GPU内存需求,同时保持与原始模型相近的性能表现。
这是Meta Llama-3.1-8B-Instruct模型的FP8量化版本,通过对权重和激活值进行FP8量化,显著减少了磁盘大小和GPU内存需求,同时保持了良好的模型性能。
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
这是Qwen3-VL-235B-A22B-Instruct的量化版本,通过将权重和激活值量化为FP8数据类型,有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入,输出文本,适用于多种自然语言处理和多模态任务。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通过将权重和激活量化为 FP8 数据类型,显著减少了磁盘大小和 GPU 内存需求,同时保持了较高的模型性能。
这是一个基于EAGLE-3推测解码算法的推测器模型,专门设计用于与Qwen/Qwen3-32B模型配合使用,通过推测解码技术提升文本生成效率,在数学推理和通用问答方面有良好表现。
这是Devstral-Small-2507模型的INT8量化版本,通过将权重和激活值量化为8位整数,显著降低了GPU内存和磁盘空间需求约50%,同时保持了良好的编码任务性能。
Devstral-Small-2507-FP8-Dynamic是通过将Devstral-Small-2507的权重和激活量化为FP8数据类型而获得的优化模型,能够有效减少GPU内存和磁盘大小需求约50%,同时保持接近原始模型的性能表现。
Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本,针对语音转录、翻译和音频理解进行了优化,采用 FP8 数据类型量化。该模型具有强大的音频理解能力,能处理多种与音频相关的任务。
这是unsloth/gpt-oss-20b-BF16模型的量化版本,采用FP8动态量化技术,具备高效的推理能力,专注于文本生成任务
Meta-Llama-3.3-70B-Instruct-NVFP4 是 Meta-Llama-3.3-70B-Instruct 的量化版本,通过将权重和激活量化为 FP4 数据类型,显著减少了磁盘大小和 GPU 内存需求,同时保持较高的性能表现。该模型支持多语言,适用于商业和研究用途。
这是 Google Gemma-3n-E2B-it 模型的量化版本,通过将权重量化为 INT4 数据类型进行优化,可使用 vLLM 框架进行高效推理。该模型支持音频-视觉-文本多模态输入,输出为文本。
这是一个基于Google Gemma-3n-E2B-it的量化版本模型,采用FP8数据类型进行权重和激活量化,支持音频、视觉和文本多模态输入,输出为文本。模型通过vLLM实现高效部署,在保持高精度的同时显著提升推理效率。
这是对 Google Gemma 3N E4B IT 模型进行 FP8 动态量化的版本,通过将权重和激活值量化为 FP8 数据类型,显著提升了推理效率,同时保持了原始模型的性能。支持多模态输入(文本、图像、音频、视频)和文本输出。
RedHatAI开发的SmolLM3-3B模型的FP8量化版本,通过将权重和激活值量化为FP8数据类型,显著减少GPU内存需求和磁盘空间占用,同时提升计算吞吐量。
这是一个基于EAGLE-3推测解码算法的文本生成模型,专为与meta-llama/Llama-3.1-8B-Instruct配合使用而设计。通过推测解码技术提升文本生成效率,支持多种语言。
专为Qwen/Qwen3-8B设计的推测解码模型,采用EAGLE-3算法提升文本生成效率和质量,通过多个优质数据集训练获得优秀的泛化能力
基于Llama-4架构的17B参数大语言模型,通过INT4权重量化技术优化,减少了75%的GPU内存和磁盘空间需求,支持多语言文本生成任务,可高效部署于vLLM推理框架。