ControlMM:文字、語音、音樂多模態輸入生成全身動作
ControlMM是香港中文大學與騰訊聯合開發的創新技術框架,旨在解決多模態全身動作生成中的難題。該框架支持文本、語音、音樂等多模態輸入,生成與內容匹配的全身動作,通過ControlMM-Attn模塊並行處理動態與靜態人體拓撲,實現高效運動知識學習。採用分階段訓練策略,從文本到運動預訓練到多模態控制適應,確保模型在不同條件下的有效性。ControlMM-Bench基準引入,提供統一格式的多模態全身動作生成評估,推動了領域發展。實驗結果表明,ControlMM在可控性、順序性和運動合理性方面顯著優於基線模型,展現了在文本、語音和音樂控制下的出色性能。