最好的聆音 AI工具模型_精選聆音資訊

AI資訊

研究人員推出LPM1.0模型:實現單圖轉實時交互式數字人視頻

LPM1.0模型發佈，能通過單張參考圖實時生成人物說話、聆聽及唱歌視頻。其核心突破在於多模態處理，可同步整合文本、音頻與圖像，生成脣形精準同步、表情細膩且情緒過渡自然的動態畫面。該模型支持接入ChatGPT等主流語音AI，將傳統語音對話升級爲具備視覺反饋的實時交互。

15.5k 1 天前

阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

阿里巴巴通義大模型開源“百聆”系列語音模型重大升級。新模型僅需3秒錄音即可無縫切換9種語言和18種方言，支持普通話、粵語、日語、英語等，並能模擬開心、憤怒等多種情感。其中Fun-CosyVoice3模型改進顯著，首包延遲降低50%，中英混說準確率大幅提升。

16.7k 3 天前

StepFun AI 發佈全新音頻大語言模型 Step-Audio-R1，音頻推理能力顯著提升

StepFun AI團隊推出音頻大模型Step-Audio-R1，通過優化計算資源利用，解決了音頻AI模型在長推理鏈中準確性下降的問題。研究團隊指出，問題源於訓練時過度依賴文本數據，導致模型推理類似閱讀文字而非實際聆聽聲音。

13.2k 1 天前

YouTube 音樂推出 AI 主播，打破音樂聆聽的沉默

YouTube推出“Labs”項目，測試創新功能。其中YouTube音樂引入AI主播“Beyond the Beat”，在用戶收聽混合曲目或電臺時，自動插入相關音頻片段，如故事和趣聞，旨在豐富音樂體驗，提升聆聽享受。

12.7k 1 天前

AI產品

百聆

百聆是一個類似GPT-4o的語音對話機器人，通過ASR+LLM+TTS實現，低配置也可運行，支持打斷。

聊天機器人

12.2k

StemGen

StemGen: 一款聆聽音樂生成模型

AI音樂生成

11.7k

Speech Studio

讓應用能夠通過語音轉文本和文本轉語音等功能聆聽、理解甚至與客戶交談

開發與工具

16k

AI-Spy

Ai音頻檢測，聆聽更真實的互聯網

內容檢測

9.4k

模型

Gemini 2.0 Flash-Lite

Google

$0.49

輸入tokens/百萬

$2.1

輸出tokens/百萬

上下文長度

Gemini 2.5 Flash

Google

$2.1

輸入tokens/百萬

$17.5

輸出tokens/百萬

上下文長度

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

輸入tokens/百萬

$240

輸出tokens/百萬

上下文長度

wan2.5-t2v-preview

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

wan2.5-i2v-preview

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

qwen3-omni-30b-a3b-captioner

Alibaba

$15.8

輸入tokens/百萬

$12.7

輸出tokens/百萬

上下文長度

qwen3-omni-flash-realtime

Alibaba

$3.9

輸入tokens/百萬

$15.2

輸出tokens/百萬

上下文長度

qwen3-tts-flash

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

qwen3-tts-flash-realtime

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Doubao-1.5-pro-32k

Bytedance

$0.8

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

qwen3-asr-flash

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

百度蒸汽機2.0音視一體

Baidu

輸入tokens/百萬

輸出tokens/百萬

上下文長度

qwen-tts-realtime

Alibaba

$2.4

輸入tokens/百萬

$12

輸出tokens/百萬

上下文長度

Hunyuan-TurboS-latest

Tencent

$0.8

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Doubao-1.5-thinking-vision-pro

Bytedance

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Gemma 3n E2B

Google

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Gemma 3n E2B Instructed

Google

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Gemma 3n E2B Instructed LiteRT (Preview)

Google

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Gemma 3n E4B

Google

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Gemma 3n E4B Instructed LiteRT Preview

Google

輸入tokens/百萬

輸出tokens/百萬

上下文長度

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商務合作網站地圖

AI資訊

研究人員推出LPM1.0模型:實現單圖轉實時交互式數字人視頻

​阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

​StepFun AI 發佈全新音頻大語言模型 Step-Audio-R1，音頻推理能力顯著提升

YouTube 音樂推出 AI 主播，打破音樂聆聽的沉默

AI產品

百聆

StemGen

Speech Studio

AI-Spy

模型

Gemini 2.0 Flash-Lite

Gemini 2.5 Flash

qwen3-livetranslate-flaltimeash-re-2025-09-22

wan2.5-t2v-preview

wan2.5-i2v-preview

qwen3-omni-30b-a3b-captioner

qwen3-omni-flash-realtime

qwen3-tts-flash

qwen3-tts-flash-realtime

Doubao-1.5-pro-32k

qwen3-asr-flash

百度蒸汽機2.0音視一體

qwen-tts-realtime

Hunyuan-TurboS-latest

Doubao-1.5-thinking-vision-pro

Gemma 3n E2B

Gemma 3n E2B Instructed

Gemma 3n E2B Instructed LiteRT (Preview)

Gemma 3n E4B

Gemma 3n E4B Instructed LiteRT Preview

阿里推出新語音模型“百聆”：三秒錄音實現多語言與情感切換

StepFun AI 發佈全新音頻大語言模型 Step-Audio-R1，音頻推理能力顯著提升