vLLM团队推出首个“全模态”推理框架vLLM-Omni,将文本、图像、音频、视频的统一生成从概念验证变为可落地的代码。该框架采用解耦流水线架构,包括模态编码器(如ViT、Whisper)、LLM核心(沿用vLLM自回归引擎)和模态生成器(如DiT、Stable Diffusion),支持多模态输入与输出。开发者可通过GitHub和ReadTheDocs获取,并立即pip安装使用。
vLLM团队推出vLLM-Omni推理框架,支持文本、图像、音频和视频等多模态输入输出,旨在简化多模态推理过程,为新一代全模态模型提供强大支持。