pytorch
SmolLM3-3B-INT8-INT4是基於HuggingFaceTB/SmolLM3-3B模型進行量化的版本,使用torchao實現了8位嵌入、8位動態激活和4位權重線性量化。該模型轉換為ExecuTorch格式,通過優化在CPU後端實現高性能,特別適合移動設備部署。
software-mansion
Qwen 3 是一個基於 ExecuTorch 運行時的語言模型,提供不同規模的量化與未量化版本。