neuralmagic
DeepSeek-R1-Distill-Qwen-32B的INT8量化版本,通過權重量化和激活值量化減少顯存佔用並提升計算效率。
DeepSeek-R1-Distill-Qwen-14B的量化版本,通過INT8量化優化了權重和激活,降低了GPU內存需求並提高了計算效率。