PrunaAI
基於google/gemma-2b模型通過AWQ技術壓縮的4位量化版本,旨在提升推理效率並降低資源消耗。
PrunaAI提供的壓縮版UniNER-7B-all模型,通過量化技術顯著減少內存佔用和能耗,同時保持較好的命名實體識別能力。
PrunaAI優化的8位量化版Palmyra小型語言模型,顯著降低內存佔用和能耗
PrunaAI壓縮的MPT-7B故事寫作模型,通過llm-int8技術實現高效推理
PrunaAI提供的壓縮版MPT-7B-Chat模型,通過llm-int8技術優化,顯著降低內存佔用和能耗。