vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
vLLM团队推出vLLM-Omni推理框架,支持文本、图像、音频和视频等多模态输入输出,旨在简化多模态推理过程,为新一代全模态模型提供强大支持。
清华大学等机构联合发布全球首个基于MCP架构的开源RAG框架UltraRAG2.1,通过YAML配置即可实现多模态智能检索系统的多阶段推理与评估,无需编程,显著降低技术门槛,推动检索增强生成技术发展。
蚂蚁数科在香港金融科技节推出“多语种多模态大模型训练框架”,旨在解决大模型在多语言环境的应用瓶颈。传统英文大模型在小语种中易出现语言错乱和推理混乱,限制全球化发展。该框架通过优化多语种处理能力,提升模型在多样化语言环境下的表现,推动AI技术更广泛高效地服务于全球各行业。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
$8
$240
52