PrunaAI
google/gemma-2bモデルを基に、AWQ技術を用いて圧縮した4ビット量子化バージョンで、推論効率の向上とリソース消費の削減を目的としています。
PrunaAIが提供する圧縮版UniNER-7B-allモデル。量子化技術によりメモリ使用量と消費電力を大幅に削減しながら、良好な固有表現抽出能力を維持。
PrunaAIが最適化した8ビット量子化版Palmyra小型言語モデル、メモリ使用量とエネルギー消費を大幅に削減
PrunaAIが圧縮したMPT-7Bストーリーライティングモデル。llm-int8技術により高効率推論を実現
PrunaAIが提供する圧縮版MPT-7B-Chatモデル。llm-int8技術で最適化され、メモリ使用量と消費電力を大幅に削減。