最好的redhat AI工具模型_精选redhat资讯 - AIBase

模型

Llama 4 Maverick 17B 128E Instruct NVFP4

RedHatAI

Llama-4-Maverick-17B-128E-Instruct-NVFP4是一个经过FP4量化处理的多语言大语言模型，基于Meta-Llama-3.1架构，专为商业和研究用途设计。该模型通过将权重和激活量化为FP4数据类型，显著减少了磁盘空间和GPU内存需求，同时保持较好的性能表现。

自然语言处理

Safetensors

Safetensors支持多种语言

Mistral Small 3.2 24B Instruct 2506 NVFP4

RedHatAI

这是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本，通过将权重和激活函数量化为FP4数据类型，减少了磁盘大小和GPU内存需求，同时支持vLLM推理。在多个任务上进行了评估以与未量化模型对比质量。

自然语言处理

Safetensors

Safetensors支持多种语言

Qwen3 VL 235B A22B Instruct NVFP4

RedHatAI

这是Qwen3-235B-A22B-Instruct-2507模型的量化版本，通过将权重和激活量化为FP4数据类型，显著降低了磁盘大小和GPU内存需求，同时保持与原始模型相近的性能表现。

自然语言处理

Safetensors

Safetensors支持多种语言

Llama 3.1 8B Instruct FP8 Block

RedHatAI

这是Meta Llama-3.1-8B-Instruct模型的FP8量化版本，通过对权重和激活值进行FP8量化，显著减少了磁盘大小和GPU内存需求，同时保持了良好的模型性能。

自然语言处理

Safetensors

NVIDIA Nemotron Nano 9B V2 FP8 Dynamic

RedHatAI

这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本，通过将权重和激活量化为FP8数据类型实现优化，显著减少磁盘大小和GPU内存需求约50%，同时保持出色的文本生成性能。

自然语言处理

Transformers

Transformers支持多种语言

Qwen3 VL 235B A22B Instruct FP8 Block

RedHatAI

这是Qwen3-VL-235B-A22B-Instruct的量化版本，通过将权重和激活值量化为FP8数据类型，有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入，输出文本，适用于多种自然语言处理和多模态任务。

Safetensors

Qwen3 VL 235B A22B Instruct FP8 Dynamic

RedHatAI

Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本，通过将权重和激活量化为 FP8 数据类型，显著减少了磁盘大小和 GPU 内存需求，同时保持了较高的模型性能。

Safetensors

Qwen3 32B Speculator.eagle3

RedHatAI

这是一个基于EAGLE-3推测解码算法的推测器模型，专门设计用于与Qwen/Qwen3-32B模型配合使用，通过推测解码技术提升文本生成效率，在数学推理和通用问答方面有良好表现。

自然语言处理

Transformers

Devstral Small 2507 Quantized.w8a8

RedHatAI

这是Devstral-Small-2507模型的INT8量化版本，通过将权重和激活值量化为8位整数，显著降低了GPU内存和磁盘空间需求约50%，同时保持了良好的编码任务性能。

自然语言处理

Safetensors

Safetensors英语

Devstral Small 2507 FP8 Dynamic

RedHatAI

Devstral-Small-2507-FP8-Dynamic是通过将Devstral-Small-2507的权重和激活量化为FP8数据类型而获得的优化模型，能够有效减少GPU内存和磁盘大小需求约50%，同时保持接近原始模型的性能表现。

自然语言处理

Safetensors

Safetensors英语

Voxtral Mini 3B 2507 FP8 Dynamic

RedHatAI

Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本，针对语音转录、翻译和音频理解进行了优化，采用 FP8 数据类型量化。该模型具有强大的音频理解能力，能处理多种与音频相关的任务。

Safetensors

Safetensors支持多种语言

Gpt Oss 20b FP8 Dynamic

RedHatAI

这是unsloth/gpt-oss-20b-BF16模型的量化版本，采用FP8动态量化技术，具备高效的推理能力，专注于文本生成任务

自然语言处理

Transformers

Llama 3.3 70B Instruct NVFP4

RedHatAI

Meta-Llama-3.3-70B-Instruct-NVFP4 是 Meta-Llama-3.3-70B-Instruct 的量化版本，通过将权重和激活量化为 FP4 数据类型，显著减少了磁盘大小和 GPU 内存需求，同时保持较高的性能表现。该模型支持多语言，适用于商业和研究用途。

自然语言处理

Safetensors

Safetensors支持多种语言

Gemma 3n E2B It Quantized.w4a16

RedHatAI

这是 Google Gemma-3n-E2B-it 模型的量化版本，通过将权重量化为 INT4 数据类型进行优化，可使用 vLLM 框架进行高效推理。该模型支持音频-视觉-文本多模态输入，输出为文本。

Transformers

Gemma 3n E2B It FP8 Dynamic

RedHatAI

这是一个基于Google Gemma-3n-E2B-it的量化版本模型，采用FP8数据类型进行权重和激活量化，支持音频、视觉和文本多模态输入，输出为文本。模型通过vLLM实现高效部署，在保持高精度的同时显著提升推理效率。

Transformers

Gemma 3n E4B It FP8 Dynamic

RedHatAI

这是对 Google Gemma 3N E4B IT 模型进行 FP8 动态量化的版本，通过将权重和激活值量化为 FP8 数据类型，显著提升了推理效率，同时保持了原始模型的性能。支持多模态输入（文本、图像、音频、视频）和文本输出。

Safetensors

Safetensors支持多种语言

SmolLM3 3B FP8 Dynamic

RedHatAI

RedHatAI开发的SmolLM3-3B模型的FP8量化版本，通过将权重和激活值量化为FP8数据类型，显著减少GPU内存需求和磁盘空间占用，同时提升计算吞吐量。

自然语言处理

Safetensors

Safetensors支持多种语言

Llama 3.1 8B Instruct Speculator.eagle3

RedHatAI

这是一个基于EAGLE-3推测解码算法的文本生成模型，专为与meta-llama/Llama-3.1-8B-Instruct配合使用而设计。通过推测解码技术提升文本生成效率，支持多种语言。

自然语言处理

Safetensors

Safetensors支持多种语言

Qwen3 8B Speculator.eagle3

RedHatAI

专为Qwen/Qwen3-8B设计的推测解码模型，采用EAGLE-3算法提升文本生成效率和质量，通过多个优质数据集训练获得优秀的泛化能力

自然语言处理

Transformers

Llama 4 Maverick 17B 128E Instruct Quantized.w4a16

RedHatAI

基于Llama-4架构的17B参数大语言模型，通过INT4权重量化技术优化，减少了75%的GPU内存和磁盘空间需求，支持多语言文本生成任务，可高效部署于vLLM推理框架。

Safetensors

Safetensors支持多种语言

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2025AIBase

商务合作网站地图