PrunaAI
基于google/gemma-2b模型通过AWQ技术压缩的4位量化版本,旨在提升推理效率并降低资源消耗。
PrunaAI提供的压缩版UniNER-7B-all模型,通过量化技术显著减少内存占用和能耗,同时保持较好的命名实体识别能力。
PrunaAI优化的8位量化版Palmyra小型语言模型,显著降低内存占用和能耗
PrunaAI压缩的MPT-7B故事写作模型,通过llm-int8技术实现高效推理
PrunaAI提供的压缩版MPT-7B-Chat模型,通过llm-int8技术优化,显著降低内存占用和能耗。