大模型竞赛进入“落地攻坚”阶段,火山引擎提出AI演进新范式:智能Agent成为AI落地核心载体,多模态能力与高效开发体系是关键。大模型正从问答交互转向深入汽车、制造等复杂场景,实现从“聊天”到“干活”的跨越。
商汤科技发布Seko2.0,全球首个专注多集视频生成的AI智能体,实现从单片段到连续叙事的跨越。该系统能保持角色、场景、风格高度一致,在剧情连贯性、人物稳定性和视觉统一性上取得突破,为短剧、广告、教育等领域提供可规模化的AI内容生产方案,基于自研“日日新Seko”多模态大模型。
快手旗下可灵AI发布“主体库”,为O1多模态视频模型增加长期记忆功能。用户上传单张角色图,系统可生成3D视角补全和多光线变体,支持跨场景一键调用角色,主体一致性超96%。流程包括上传图片自动处理、AI补全多角度视图,实现从单图到3D记忆的转换。
快手发布新一代多模态模型Keye-VL-671B-A37B并开源代码。该模型具备“善看会想”特性,在视觉理解、视频分析和数学推理等核心基准测试中表现优异,强化了视觉感知与跨模态对齐能力,展现快手在AI领域的技术实力。
Phantom 是一款基于跨模态对齐的主体一致性视频生成模型。
CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。
利用复合AI技术,将文档内联处理,跨越模态差距。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Emu3.5是由北京智源人工智能研究院(BAAI)开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模与生成,在多模态任务中表现卓越。
unsloth
ERNIE-4.5-300B-A47B 是一款文本 MoE 后训练模型,拥有 3000 亿的总参数,每个标记有 470 亿的激活参数。该模型具备多模态异构 MoE 预训练、高效扩展基础设施和特定模态后训练等先进技术,能在文本理解与生成、图像理解及跨模态推理等任务中表现出色。
DeSTA-ntu
DeSTA2.5-Audio是一个通用的大型音频语言模型,通过自生成的跨模态对齐技术,在无需特定任务指令调优数据的情况下实现高扩展性和效率,同时保留语言能力并避免灾难性遗忘。
redlessone
DermLIP是一款专门针对皮肤病学领域的视觉语言模型,基于最大的皮肤病学图像文本语料库Derm1M训练而成。该模型采用CLIP风格的架构,能够执行皮肤病相关的多种任务,包括零样本分类、少样本学习、跨模态检索和概念注释等。
DeepGlint-AI
UniME 是一个基于多模态大模型的通用嵌入学习模型,专注于打破模态壁垒,实现跨模态检索和嵌入学习。
lamm-mit
Cephalo-Gemma-3-4b 是一个跨模态视觉语言模型,专注于仿生材料分析与设计。
Tevatron
基于Qwen2.5-Omni-7B构建的多模态嵌入模型,支持跨语言文本、图像、音频和视频的统一嵌入表示
slprl
基于Qwen2.5-7B扩展的语音语言模型,支持语音-文本交错训练和跨模态生成
Sony
AKI是一种多模态基础模型,通过解锁LLM中的因果注意力机制实现跨模态互注意力(MMA),解决视觉语言错位问题,无需增加额外参数和训练时间。
strangerzonehf
一个基于Flux.1开发版和Ponyv6跨模态组件构建的真实感图像生成适配器,专注于生成高度逼真的图像。
ModelsLab
这是一个基于OpenCLIP框架、在LAION-2B英语子集上训练的视觉语言模型,擅长零样本图像分类和跨模态检索任务。
recallapp
基于OpenCLIP框架在LAION-2B英语数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
alielfilali01
Dallah是一款专为阿拉伯语设计的先进多模态大语言模型,特别注重理解与生成跨阿拉伯方言的内容。
OpenMuQ
MuQ是基于梅尔残差向量量化的自监督音乐表征学习模型,MuQ-MuLan是音乐-文本联合嵌入模型。MuQ在多个音乐信息检索任务中达到当前最优水平,支持音乐音频特征提取和音乐文本跨模态检索。
microsoft
LLM2CLIP是一种创新方法,通过大语言模型增强CLIP的跨模态能力,显著提升视觉和文本表征的判别力。
LLM2CLIP是一种利用大语言模型(LLM)扩展CLIP能力的创新方法,通过对比学习框架提升文本判别性,显著提升跨模态任务性能。
LLM2CLIP是一种利用大语言模型(LLM)增强CLIP模型能力的方法,通过对比学习微调LLM并作为CLIP视觉编码器的教师模型,显著提升跨模态任务性能。
LLM2CLIP是一种创新方法,通过大语言模型(LLM)增强CLIP的视觉表征能力,显著提升跨模态任务性能
joaodaniel
面向遥感领域的多语言视觉-语言预训练模型,支持10种语言的图像-文本跨模态任务
Jina AI MCP服务器是一个提供语义搜索、图像搜索和跨模态搜索功能的模型上下文协议服务,支持与Jina AI神经搜索能力无缝集成。
Jina AI MCP服务器是一个提供语义搜索、图像搜索和跨模态搜索功能的模型上下文协议服务器,支持与Jina AI神经搜索能力无缝集成。