vLLM團隊推出首個“全模態”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統一生成從概念驗證變爲可落地的代碼。該框架採用解耦流水線架構,包括模態編碼器(如ViT、Whisper)、LLM核心(沿用vLLM自迴歸引擎)和模態生成器(如DiT、Stable Diffusion),支持多模態輸入與輸出。開發者可通過GitHub和ReadTheDocs獲取,並立即pip安裝使用。
vLLM團隊推出vLLM-Omni推理框架,支持文本、圖像、音頻和視頻等多模態輸入輸出,旨在簡化多模態推理過程,爲新一代全模態模型提供強大支持。