説明はありません
大規模言語モデルが1ビット時代に突入。マイクロソフトと中国科学院大学がBitNet b1.58手法を提案。パラメータを3進数表現に変換することで、モデルのメモリ占有量の削減と計算過程の簡素化を実現。性能最適化により、モデルの速度向上とメモリ使用量の削減に成功。この研究は、ネットユーザーの間で大きな話題と議論を呼んでいる。
1ビット大型言語モデル推論フレームワーク
codys12
これはHugging Face Hubでホストされているtransformersモデルです。具体的な機能や用途については、さらに情報を追加する必要があります
このモデルはtransformersライブラリに基づくモデルで、具体的な用途と機能についてはさらなる情報確認が必要です。
tdh111
マイクロソフトが開発した1.58ビット量子化大規模言語モデル、効率的な推論のために設計され、IQ2_BNとIQ2_BN_R4の2つの量子化バージョンを提供
microsoft
マイクロソフトリサーチが開発した初のオープンソース、ネイティブ1ビットの大規模言語モデルで、パラメータ規模は20億、4兆トークンのコーパスでトレーニングされています。
マイクロソフトリサーチが開発した初のオープンソース20億パラメータ規模のネイティブ1ビット大規模言語モデル。4兆トークンのコーパスでトレーニングされ、ネイティブ1ビット大規模言語モデルが同規模のフル精度オープンソースモデルと同等の性能を維持しながら、計算効率を大幅に向上させることを証明しました。
マイクロソフトリサーチによって開発されたオープンソースのネイティブ1ビット大規模言語モデルで、パラメータ規模は20億、4兆トークンのコーパスでトレーニングされ、計算効率が大幅に向上しています。
HF1BitLLM
BitNet 1.58bアーキテクチャを基にファインチューニングされた大規模言語モデルで、ベースモデルはLlama-3-8B-Instruct、極端な量子化技術を採用
BoscoTheDog
BitNet b1.58は1.58ビット量子化の大規模言語モデルで、重み精度を下げることで計算リソースの必要量を減らし、同時に全精度モデルに近い性能を維持します。
1bitLLM
BitNet b1.58は1ビット大規模言語モデルで、パラメータ規模は30億、RedPajamaデータセットで1000億トークン訓練されています。
BitNet b1.58 3Bは1ビット量子化された大規模言語モデルで、RedPajamaデータセットを使用して1000億トークン訓練され、性能を維持しながら計算リソース要件を大幅に削減しました。
BitNet b1.58は1.58ビット量子化された大規模言語モデルで、重みを{-1,0,1}の3値に量子化することで効率的な推論を実現しています。このモデルは原論文の結果を再現し、RedPajamaデータセットで1000億トークン訓練されました。