在 AI 时代,大型语言模型(LLM)就像武林秘籍,其训练过程耗费巨大算力、数据,就像闭关修炼多年的武林高手。而开源模型的发布,就像高手将秘籍公之于众,但会附带一些许可证(如 Apache2.0和 LLaMA2社区许可证)来保护其知识产权(IP)。然而,江湖险恶,总有“套壳”事件发生。一些开发者声称自己训练了新的 LLM,实际上却是在其他基础模型(如 Llama-2和 MiniCPM-V)上进行包装或微调。 这就好像偷学了别人的武功,却对外宣称是自己原创的。为了防止这种情况发生,模型所有者和第三方迫
在AI领域,大型语言模型(LLMs)展现出了极高的语言理解和生成能力,如GPT-3和Llama-2等。然而,这些模型的庞大参数量对训练和部署提出了高资源需求的挑战,传统的解决办法是训练多版本模型以适应不同计算环境,但这种做法效率低下。为此,NVIDIA和德克萨斯大学奥斯汀分校提出Flextron框架,一种支持无需额外微调的灵活模型架构和优化方法。Flextron能根据特定的延迟和准确性需求,在推理过程中动态调整模型部署,显著减少对多个模型变体的依赖。通过样本高效训练方法和先进的路由算法,Flextron将预训练的LLMs转化为能够适应各种部署场景的弹性模型,节省计算资源和时间。对比其他最先进的弹性网络,Flextron在效率和准确性上都有出色表现,并通过弹性多头注意力层进一步优化资源利用,特别适合资源有限的计算环境。
"美国国防部最近启动了一项赏金计划,旨在寻找人工智能模型中的法律偏见。该计划要求参与者从Meta的开源LLama-270B模型中提取明显的偏见例证。通过这一举措,五角大楼希望改"
["Colossal-AI 团队以低成本构建了性能卓越的中文 LLaMA-2 模型","中文版 LLaMA-2 在多个评测榜单中表现优异","Colossal-AI 开源了完整的训练流程、代码及权重","Colossal-AI 提供了评估体系框架 ColossalEval","Colossal-AI 的方案可用于构建任意垂类领域的大模型"]
MerantixMomentum
ACIP项目提供的Llama-2-13b可压缩版本,支持动态调整压缩率
Mungert
Llama 2是由Meta开发的7B参数规模的大语言模型,提供多种量化版本以适应不同硬件需求。
SURESHBEEKHANI
基于Llama-2-7b微调的医学对话模型,用于回答医学相关问题并提供详细知识。
matrixportal
Meta发布的Llama 2系列7B参数聊天模型GGUF量化版本,适用于本地部署和推理
matrixportalx
这是一个基于Meta的Llama-2-7b-chat-hf模型转换而来的GGUF格式版本,采用Q4_K_M量化技术,适用于llama.cpp推理框架,支持高效的文本生成和对话任务。
diffusionfamily
基于Llama-2-7b微调的扩散语言模型
miulab
LLaMA-2 Reward Model是基于LLaMA-2-7B架构训练的奖励模型,通过模型融合技术为奖励模型赋予领域知识。该模型在argilla/ultrafeedback-binarized-preferences-cleaned数据集上训练,专门用于文本分类任务,具有重要的研究和应用价值。
tanusrich
基于LLaMA-2-7b微调的心理健康辅助对话模型,提供共情支持和非评判性心理帮助
inceptionai
Jais Adapted 13B是基于Llama-2架构的双语(阿拉伯语-英语)大语言模型,通过自适应预训练增强阿拉伯语能力
Jais系列是基于Llama-2架构的双语大语言模型,专为阿拉伯语优化同时具备强大英语能力。本模型为700亿参数规模的阿拉伯语自适应版本,支持4,096上下文长度。
Jais系列是专精阿拉伯语处理的双语大语言模型,基于Llama-2架构进行阿拉伯语适配预训练
Jais系列是专为阿拉伯语优化的英阿双语大语言模型,基于Llama-2架构进行自适应预训练,具备强大的双语处理能力。
varma007ut
基于Llama-2-7b微调的印度法律专用对话模型,专注于提供印度法律相关问题的回答。
HiTZ
Latxa是基于LLaMA-2架构的巴斯克语大语言模型,专为低资源语言设计,在42亿token的巴斯克语料库上训练
NikolayKozloff
这是一个基于Llama-2-7b架构的乌克兰语和英语语言模型,已转换为GGUF格式,适用于llama.cpp框架。
sudipto-ducs
InLegalLLaMA是基于Llama-2-7B在印度法律和科学数据集上微调的大语言模型,专门针对法律文本生成任务进行优化,适用于印度法律领域的应用场景。
tartuNLP
Llama-2-7b-乌克兰语版是一个支持乌克兰语和英语的双语预训练模型,基于Llama-2-7b继续预训练,使用了来自CulturaX的50亿token数据。
RedHatAI
这是一个基于Meta的Llama 2 7B模型进行微调的算术推理模型,专门针对GSM8K数学问题数据集进行了优化,在数学推理任务上表现出色。
Bohanlu
基於台語-Llama-2系列模型構建,專注於台灣閩南語與繁體中文、英語之間的翻譯任務。
ChrisPuzzo
基于Llama2-7B-Chat模型微调的隐私政策问答与摘要工具