neuralmagic
DeepSeek-R1-Distill-Qwen-32BのINT8量子化バージョンで、重み量子化と活性化値量子化によりVRAM使用量を削減し計算効率を向上。
DeepSeek-R1-Distill-Qwen-14Bの量子化バージョンで、INT8量子化により重みと活性化を最適化し、GPUメモリ要件を低減し計算効率を向上させました。