阿里巴巴12月16日發佈新一代萬相2.6系列模型,針對影視製作和圖像創作全面升級,號稱“全球功能最全的視頻生成模型”。該模型已上線阿里雲百鍊和官網,核心亮點包括國內首個“角色扮演”功能,並支持音畫同步、多鏡頭生成及聲音驅動等,在畫質、音效等方面實現技術突破。
快手旗下可靈AI推出首個“音畫同出”模型可靈2.6,能同時生成畫面、語音、音效和環境氛圍,打通音畫世界。該模型提供“文生音畫”和“圖生音畫”兩種創作路徑,用戶可通過一句話或圖片快速生成完整視頻,提升創作體驗。
愛詩科技推出PixVerse V5.5(國內版“拍我AI V5.5”),實現全量升級並開放體驗。該模型是國內首個支持“多鏡頭+音畫同步一鍵直出”的AI視頻大模型,推動AI生成視頻從“單鏡頭素材”進入“完整敘事短片”階段。基於自研MVL架構,V5.5能在5-10秒內自動完成腳本拆解、分鏡調度及音效生成,顯著提升視頻製作的完整性與效率。
智譜AI發佈清影2.0,支持文本生成1080P高清視頻,並集成CogSound模型自動添加音效,實現視聽一體創作。該產品被視爲國產版“Sora”,爲開發者提供創新AI應用工具。
最新視頻生成模型,更真實、可控,支持同步對話與音效。
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
$2
walterheart
Bark是由Suno創建的基於Transformer的文本轉音頻模型,可生成高度逼真的多語言語音、音樂、背景噪音和音效。
facebook
MAGNeT是一款基於非自迴歸Transformer的文本生成音樂與音效模型,能夠根據文本描述生成高質量音頻樣本。
ylacombe
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
declare-lab
TANGO是基於潛在擴散模型的文本轉音頻生成工具,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
suno
TANGO是基於指令引導擴散的文本轉音頻模型,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
該項目通過Model Context Protocol(MCP)讓大型語言模型直接理解和生成Max音頻處理軟件中的音效模塊,支持解釋、修改和創建音效模塊,並提供與LLM的交互界面。