neuralmagic
DeepSeek-R1-Distill-Qwen-32B的INT8量化版本,通过权重量化和激活值量化减少显存占用并提升计算效率。
DeepSeek-R1-Distill-Qwen-14B的量化版本,通过INT8量化优化了权重和激活,降低了GPU内存需求并提高了计算效率。