螞蟻AI助手靈光升級“閃應用”,新增“上傳圖片生應用”和“桌面小組件”功能,集成近20項API工具,支持音效合成、多模態理解等,提升用戶創建個性化工具的效率和交互體驗。
xAI旗下Grok Imagine新增10秒視頻生成功能,視頻質量顯著提升,畫面穩定、細節豐富,音頻清晰同步。目前生成過程仍較隨機,缺乏計時器選項,輸出長度和一致性有待優化,但相關功能預計將很快完善。
快手Kling 2.6版本推出語音與動作控制兩大功能,實現原生音頻生成並提升複雜動作處理精度。語音控制可生成匹配視頻的音效、人聲和音樂,支持個性化聲音定製。
字節跳動推出“Seedance1.5Pro”音視頻創作模型,現已上線豆包平臺。該模型實現“文字-畫面-聲音”一體化生成,能深度理解文本意圖,同步創作匹配的畫面、音效與人物臺詞,有效避免音畫脫節,並提升人物“開口說話”的自然度,讓普通用戶也能輕鬆製作有聲視頻。
在insMind使用Sora 2生成無水印視頻,含音效、特效與逼真動作
最新視頻生成模型,更真實、可控,支持同步對話與音效。
創造令人驚歎的AI視頻,使用VO3 AI,這是一款先進的視頻生成器,無縫結合音效、對話和環境音效,提供沉浸式觀看體驗。
在線AI音樂生成器,幫助用戶免費創作歌曲、節拍、DJ音效等。
Alibaba
-
輸入tokens/百萬
輸出tokens/百萬
上下文長度
walterheart
Bark是由Suno創建的基於Transformer的文本轉音頻模型,可生成高度逼真的多語言語音、音樂、背景噪音和音效。
facebook
MAGNeT是一款基於非自迴歸Transformer的文本生成音樂與音效模型,能夠根據文本描述生成高質量音頻樣本。
ylacombe
Bark是由Suno創建的基於Transformer的文本轉音頻模型,能生成高度逼真的多語言語音、音樂、背景噪音和簡單音效。
declare-lab
TANGO是基於潛在擴散模型的文本轉音頻生成工具,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
suno
TANGO是基於指令引導擴散的文本轉音頻模型,能夠根據文本提示生成包括人聲、動物聲音、自然與人工音效在內的逼真音頻。
Cursor AI代碼生成後播放音效的MCP實現
一個基於MCP協議的服務器,用於在代理任務完成時發送帶有音效的桌面通知,支持跨平臺運行。
該項目通過Model Context Protocol(MCP)讓大型語言模型直接理解和生成Max音頻處理軟件中的音效模塊,支持解釋、修改和創建音效模塊,並提供與LLM的交互界面。
一個為Cursor/Windsurf代碼生成工具提供系統通知音效的MCP服務,在代碼生成完成或需要用戶批准時通過macOS系統音效進行提醒。
一個基於Model Context Protocol的通知服務,允許AI代理在任務完成時播放提示音。提供開箱即用的預置音效庫,支持跨平臺運行和自定義音效配置。
Cursor Sound MCP是一個通過MCP協議實現的音效反饋工具,在Cursor AI完成代碼生成時播放音效,提升交互體驗。
AI-StoryLab是一個基於Next.js的智能故事創作平臺,提供故事生成、語音合成、音效添加和繪圖提示詞生成功能,支持中英文內容創作。