vLLM-Omniは、テキスト、画像、音声、ビデオの統一生成を実現する初の「全モーダル」推論フレームワークです。解結合パイプラインアーキテクチャを採用し、GitHubからpipで利用可能です。....
vLLM-Omniは、テキスト、画像、音声、動画など多様な入出力をサポートする推論フレームワーク。多モーダル推論を簡素化し、次世代全モーダルモデルを強力に支援します。....