mlx-community
智譜AIのGLM-4.5-Airモデルを基に変換された3ビットの深度量子化重み(Deep Weight Quantization)バージョンで、MLXフレームワーク用に最適化されており、高い性能を維持しながら、モデルサイズと推論リソースの要件を大幅に削減します。
TheBloke
DeepSeek LLM 67B Chat AWQは、DeepSeekの670億パラメータの大規模言語モデルに基づく4ビット量子化バージョンで、AWQ(Activation-aware Weight Quantization)技術を用いて最適化されており、高品質を維持しながら推論速度を大幅に向上させ、中英語の対話タスクをサポートします。