最近,一组来自斯坦福大学、康奈尔大学和西弗吉尼亚大学的计算机科学家与法律学者共同发表了一项引人瞩目的研究,分析了几款开源大型语言模型在文本记忆方面的表现。这项研究着重考察了五种不同的开放权重模型,它们的能力是否能够重复经典书籍中的内容。这五款模型中,有三款来自 Meta,另外两款分别由微软和 EleutherAI 开发。研究团队采用了 Books3这一流行的书籍数据库,作为训练这些大模型的素材,值得一提的是,这些书籍中许多依然受到版权保护。研究者们将36本书划分为
["微软与前谷歌 CEO 支持 Synth Labs 解决 AI 系统与人类意图对齐问题。","Synth Labs 致力于构建软件,确保人工智能按人类意图行动。","初创公司起源于非营利性 AI 研究实验室 EleutherAI,专注解决语言模型挑战。","Synth Labs 方法通过评估大型语言模型,帮助引导人工智能系统避免讨论敏感主题。"]
EleutherAI
深度无知模型套件是一个包含18个69亿参数的大语言模型集合,旨在研究通过过滤预训练数据来防止模型学习不安全技术能力(如CBRN相关能力)的方法。该套件展示了过滤数据可以有效避免不良知识学习,同时保持通用性能并具备抗篡改能力。
vwxyzjn
基于EleutherAI_pythia-1b-deduped模型微调的版本,用于生成简洁摘要
Pile-T5基础版是基于T5x库在The Pile数据集上训练的编码器-解码器模型,通过MLM目标训练了200万步,约2万亿token。
Pile-T5 XXL是基于T5x库在The Pile数据集上训练的编码器-解码器模型,采用类似原始T5模型的MLM目标,训练了200万步(约2万亿token)。
Felladrin
基于EleutherAI/pythia-31m微调的3100万参数对话模型,支持多轮对话和多种任务场景
Llemma 34B是一个专注于数学领域的语言模型,基于Code Llama 34B的权重进行初始化,并在Proof-Pile-2数据集上训练了500亿个token。
Llemma 34B 是一款专注于数学领域的语言模型,基于Code Llama 34B权重初始化,并在Proof-Pile-2数据集上训练。
etri-xainlp
基于EleutherAI/polyglot-ko-12.8b在26万条指令跟随数据集上微调的韩语多语言大模型
Pile-T5 Large 是基于 T5x 库在 The Pile 数据集上训练的编码器-解码器模型,主要用于英语文本到文本生成任务。
heegyu
基于EleutherAI/polyglot-ko-5.8b模型,使用多个韩语指令数据集进行训练的聊天模型
nlpai-lab
KULLM-Polyglot-5.8B-v2是基于EleutherAI/polyglot-ko-5.8b在KULLM v2数据集上进行参数高效微调的大语言模型版本,专门针对韩语自然语言处理任务进行了优化,具有58亿参数规模。
基于EleutherAI/polyglot-ko-12.8b的KULLM v2微调版本,支持韩语的多语言大语言模型
beomi
基于EleutherAI/polyglot-ko-12.8b在韩国羊驼数据集v1.1b上微调的多语言韩文生成模型
togethercomputer
基于EleutherAI Pythia-7B微调的70亿参数开源对话模型,使用100%负碳计算资源训练超过4000万条指令
Pythia-1B是EleutherAI开发的可解释性研究专用语言模型,属于Pythia套件中的10亿参数规模版本,基于The Pile数据集训练。
Pythia-12B是EleutherAI开发的可扩展语言模型套件中的最大模型,拥有120亿参数,专为促进大语言模型科学研究而设计
Pythia-12B-deduped是EleutherAI开发的12B参数规模的大型语言模型,专为可解释性研究设计,在去重后的Pile数据集上训练。
Pythia-6.9B是EleutherAI开发的大规模语言模型,属于Pythia可扩展套件的一部分,专为促进可解释性研究而设计。
Pythia-10亿去重版是EleutherAI开发的可解释性研究专用语言模型,基于去重Pile数据集训练,采用Transformer架构,参数规模10亿
Pythia是EleutherAI开发的一系列因果语言模型,专为可解释性研究设计,包含从7000万到120亿参数的8种规模,提供154个训练检查点