上海人工智能实验室发布并开源万亿参数科学多模态大模型“书生 Intern-S1-Pro”,基于“通专融合”架构 SAGE 打造,刷新开源社区参数规模纪录,在多项科学能力上实现突破,综合学科评测稳居 AI4S 领域国际前列。
上海AI实验室发布全球最大开源科学多模态模型“书生 Intern-S1-Pro”,参数达1万亿。该模型基于“通专融合”架构SAGE,在科学能力上达到国际领先水平,尤其在复杂学科评测中展现出卓越的逻辑推理能力。
宇树开源UnifoLM-VLA-0大模型,专为通用人形机器人设计,实现视觉-语言-动作深度融合。该模型突破传统视觉语言模型局限,通过机器人操作数据预训练,推动机器人大脑从图文理解向具备物理常识的具身智能迈进。
OpenAI发布GPT-5.2-Codex,这是其最先进的智能体编程模型。它专为处理复杂、长期的现实编码任务设计,在基准测试中创下新纪录,并能自主完成从代码理解、环境搭建到漏洞挖掘和提交Pull Request的全流程。该模型融合了GPT-5.2的通用推理能力和GPT-5.1-Codex-Max的终端操作功能,标志着AI在软件工程实战能力上的重大突破。
Anthropic
$105
Input tokens/M
$525
Output tokens/M
200
Context Length
$21
Google
$17.5
$70
2.1k
MedSwin
本项目是使用预训练语言模型融合技术创建的医学领域模型,通过融合多个医学相关的预训练模型,专门针对医学问答任务进行优化,提升在医学场景下的性能和效果。
Ilya626
这是一个使用SLERP方法合并Vistral-24B-Instruct和Cydonia-24B-v4.2.0的预训练语言模型,专门优化支持俄语和英语的双语处理能力。模型通过智能融合两个基础模型的优势,在保持俄语能力的同时增强了英语性能。
NexaAI
Qwen3-VL-4B-Instruct是阿里云Qwen团队推出的40亿参数指令调优多模态大语言模型,专为高通NPU优化,融合强大的视觉语言理解能力与对话微调功能,适用于聊天推理、文档分析和视觉对话等实际应用场景。
Casual-Autopsy
这是一个专注于角色扮演能力的24B参数语言模型,通过多种先进合并技术融合多个优秀模型而成,特别优化了传统推理能力和SillyTavern兼容性。
spacematt
基于Qwen2.5架构的14B参数规模代码生成与理解模型,通过Model Stock方法融合多个专业编码模型而成
mergekit-community
基于Qwen2.5-14B模型通过TIES方法融合的增强版本,专注于指令跟随和对话优化
Yntec
基于C3、DreamlikeShaper与LeonardoDaVinciStyle LoRA融合的文本生成图像模型,专注于通用艺术风格输出
Delta-Vector
专为角色扮演与创意写作打造的32B参数大语言模型,通过双模型融合技术实现
zelk12
基于Gemma-2B架构的中英文混合模型,通过SLERP方法融合了两个专门优化的子模型
zerofata
基因柠檬水释放版是一款专为角色扮演(RP)和创意写作设计的70B参数大语言模型,通过融合多个优秀模型实现写作风格、创造力和智能水平的平衡。
专为角色扮演与创意写作设计的融合模型,采用Rei-12B与Francois-Huali-12B通过Slerp算法融合
DavidAU
专为小说、故事创作优化的Gemma2模型,通过融合多个顶尖故事创作模型微调而来,具备更丰富、细腻、有深度的内容生成能力。
deadman44
本项目包含一系列基于Flux的文本到图像生成模型,通过不同的训练和融合方式,生成具有不同风格和特点的图像。这些模型专注于生成不同年龄段、不同场景的日本风格图像,为图像创作提供了多样化的选择。
这是一款专为小说、故事创作和写作场景优化的Gemma2模型,融合了EQBench中顶尖的故事叙述与写作模型。通过Brainstorm 5x适配器改进,增加了近10亿参数,提升了文风、句子结构和输出质量,具备高稳定性和通用性。
miulab
LLaMA-2 Reward Model是基于LLaMA-2-7B架构训练的奖励模型,通过模型融合技术为奖励模型赋予领域知识。该模型在argilla/ultrafeedback-binarized-preferences-cleaned数据集上训练,专门用于文本分类任务,具有重要的研究和应用价值。
ChatterjeeLab
基于聚焦概率掩码的融合癌蛋白特异性语言模型,通过微调ESM-2-650M构建,专门针对儿童癌症相关的融合癌蛋白序列
BioMistral
BioMistral-MedMNX 是一个通过融合多个预训练模型而创建的生物医学领域专用语言模型,采用 DARE 和 TIES 融合方法优化性能。
ThomasComics
Noro-Hermes-3x7B 是一个采用懒人融合工具包构建的混合专家模型(MoE),融合了三个7B参数的Mistral变体模型,具备智能助手、创意角色扮演和通用任务处理能力。
Isotonic
TinyMixtral-4x248M-MoE 是一个采用混合专家(MoE)架构的小型语言模型,通过融合多个TinyMistral变体而成,适用于文本生成任务。
AdaptLLM-4x7B-专家混合模型是通过融合多个专业领域模型构建的专家混合系统,擅长通用对话、金融、医疗和法律领域的文本生成任务。