LPM1.0模型發佈,能通過單張參考圖實時生成人物說話、聆聽及唱歌視頻。其核心突破在於多模態處理,可同步整合文本、音頻與圖像,生成脣形精準同步、表情細膩且情緒過渡自然的動態畫面。該模型支持接入ChatGPT等主流語音AI,將傳統語音對話升級爲具備視覺反饋的實時交互。
阿里巴巴通義大模型開源“百聆”系列語音模型重大升級。新模型僅需3秒錄音即可無縫切換9種語言和18種方言,支持普通話、粵語、日語、英語等,並能模擬開心、憤怒等多種情感。其中Fun-CosyVoice3模型改進顯著,首包延遲降低50%,中英混說準確率大幅提升。
StepFun AI團隊推出音頻大模型Step-Audio-R1,通過優化計算資源利用,解決了音頻AI模型在長推理鏈中準確性下降的問題。研究團隊指出,問題源於訓練時過度依賴文本數據,導致模型推理類似閱讀文字而非實際聆聽聲音。
YouTube推出“Labs”項目,測試創新功能。其中YouTube音樂引入AI主播“Beyond the Beat”,在用戶收聽混合曲目或電臺時,自動插入相關音頻片段,如故事和趣聞,旨在豐富音樂體驗,提升聆聽享受。
百聆是一個類似GPT-4o的語音對話機器人,通過ASR+LLM+TTS實現,低配置也可運行,支持打斷。
StemGen: 一款聆聽音樂生成模型
讓應用能夠通過語音轉文本和文本轉語音等功能聆聽、理解甚至與客戶交談
Ai音頻檢測,聆聽更真實的互聯網
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
$17.5
Alibaba
$8
$240
52
-
$15.8
$12.7
64
$3.9
$15.2
Bytedance
$0.8
$2
128
Baidu
$2.4
$12
8
Tencent
32
$3
$9