淘天グループと愛橙科技は、巨大言語モデルの訓練フレームワークMegatron-LLaMAをオープンソース化しました。このフレームワークは、大規模言語モデルの訓練性能を向上させ、訓練コストを削減し、LLaMAコミュニティとの互換性を維持します。32枚のGPUを用いた訓練において、176%の高速化を実現しました。
大規模Transformerモデルの継続的な研究開発
retrieva-jp
Megatron-LMで事前学習されたTransformerエンコーダーで、日本語シーン向けに設計
NYTK
PULI GPT - 2は、GPT - 2アーキテクチャに基づくハンガリー語のテキスト生成モデルで、Megatron - DeepSpeedを使用して訓練され、訓練データには363億語が含まれています。
KBLab
Megatron-BERT-large-165kアーキテクチャに基づくスウェーデン語ゼロショット分類モデルで、QNLIとMNLIタスクで順次微調整されています
Muennighoff
これはMegatron-LMとtransformers間の変換機能をテストするための小型GPT-2タイプのモデルで、主に統合テストとデバッグスクリプト用です
IDEA-CCNL
MegatronBertアーキテクチャに基づく中国語感情分析モデル、複数の感情分析タスクでファインチューニングされたバージョン
bigscience
これはMegatron-LMとtransformers間の変換をテストするための小型GPT-2類似モデルで、主に統合テストやデバッグスクリプト用です。
AI-Nordics
Megatron-LMフレームワークに基づいて実装されたスウェーデン語Bert Largeモデルで、3億4000万のパラメータを含み、85GBのスウェーデン語テキストで事前学習されています。