近日,微软公司遭到多位知名作家的控告,指控其在训练人工智能模型 Megatron 时,未经许可使用了大量盗版书籍。起诉的作家包括凯・伯德、贾・托连蒂诺和丹尼尔・奥克伦特等,他们在纽约联邦法院提出诉讼,认为微软利用他们作品的盗版电子版进行 AI 训练,从而使 AI 能够根据用户的文本指令生成回应。这起诉讼的核心争议在于,AI 训练过程中是否构成对版权的侵犯。除了微软,Meta、Anthropic 和 OpenAI 等科技公司也被列为被告。这些公司都声称,使用受版权保护的内容属于 “合理使用
["淘天集团联合爱橙科技开源大模型训练框架 Megatron-LLaMA","框架能够提升大语言模型训练性能","降低训练成本","保持和 LLaMA 社区的兼容性","在 32 卡训练上能够取得 176% 的加速"]
大规模训练 Transformer 模型的持续研究
retrieva-jp
基于Megatron-LM预训练的Transformer编码器,专为日语场景设计
NYTK
PULI GPT-2是一个匈牙利语文本生成模型,基于GPT-2架构,使用Megatron-DeepSpeed训练,训练数据包含363亿词。
KBLab
基于Megatron-BERT-large-165k架构的瑞典语零样本分类模型,先后在QNLI和MNLI任务上进行微调
Muennighoff
这是一个用于测试Megatron-LM与transformers之间转换功能的小型GPT-2类模型,主要用于集成测试和调试脚本
IDEA-CCNL
基于MegatronBert架构的中文情感分析模型,在多个情感分析任务上微调后的版本
bigscience
这是一个用于测试Megatron-LM与transformers之间转换的小型GPT-2类似模型,主要用于集成测试和调试脚本。
AI-Nordics
基于Megatron-LM框架实现的瑞典语Bert Large模型,包含3.4亿参数,在85GB瑞典语文本上预训练