近日,微軟公司遭到多位知名作家的控告,指控其在訓練人工智能模型 Megatron 時,未經許可使用了大量盜版書籍。起訴的作家包括凱・伯德、賈・託連蒂諾和丹尼爾・奧克倫特等,他們在紐約聯邦法院提出訴訟,認爲微軟利用他們作品的盜版電子版進行 AI 訓練,從而使 AI 能夠根據用戶的文本指令生成迴應。這起訴訟的核心爭議在於,AI 訓練過程中是否構成對版權的侵犯。除了微軟,Meta、Anthropic 和 OpenAI 等科技公司也被列爲被告。這些公司都聲稱,使用受版權保護的內容屬於 “合理使用
["淘天集團聯合愛橙科技開源大模型訓練框架 Megatron-LLaMA","框架能夠提升大語言模型訓練性能","降低訓練成本","保持和 LLaMA 社區的兼容性","在 32 卡訓練上能夠取得 176% 的加速"]
大規模訓練 Transformer 模型的持續研究
retrieva-jp
基於Megatron-LM預訓練的Transformer編碼器,專為日語場景設計
NYTK
PULI GPT-2是一個匈牙利語文本生成模型,基於GPT-2架構,使用Megatron-DeepSpeed訓練,訓練數據包含363億詞。
KBLab
基於Megatron-BERT-large-165k架構的瑞典語零樣本分類模型,先後在QNLI和MNLI任務上進行微調
Muennighoff
這是一個用於測試Megatron-LM與transformers之間轉換功能的小型GPT-2類模型,主要用於集成測試和調試腳本
IDEA-CCNL
基於MegatronBert架構的中文情感分析模型,在多個情感分析任務上微調後的版本
bigscience
這是一個用於測試Megatron-LM與transformers之間轉換的小型GPT-2類似模型,主要用於集成測試和調試腳本。
AI-Nordics
基於Megatron-LM框架實現的瑞典語Bert Large模型,包含3.4億參數,在85GB瑞典語文本上預訓練