pytorch
SmolLM3-3B-INT8-INT4是基于HuggingFaceTB/SmolLM3-3B模型进行量化的版本,使用torchao实现了8位嵌入、8位动态激活和4位权重线性量化。该模型转换为ExecuTorch格式,通过优化在CPU后端实现高性能,特别适合移动设备部署。
software-mansion
Qwen 3 是一个基于 ExecuTorch 运行时的语言模型,提供不同规模的量化与未量化版本。