大規模訓練 Transformer 模型的持續研究
retrieva-jp
基於Megatron-LM預訓練的Transformer編碼器,專為日語場景設計
Muennighoff
這是一個用於測試Megatron-LM與transformers之間轉換功能的小型GPT-2類模型,主要用於集成測試和調試腳本
bigscience
這是一個用於測試Megatron-LM與transformers之間轉換的小型GPT-2類似模型,主要用於集成測試和調試腳本。
AI-Nordics
基於Megatron-LM框架實現的瑞典語Bert Large模型,包含3.4億參數,在85GB瑞典語文本上預訓練