Best 音频驱动 AI Tools & Models - Premium 音频驱动 News

AI News

亚马逊上线AI语音问答功能，打造 24 小时在线购物专家

亚马逊于4月30日推出“Join the chat”AI音频问答功能，由数字“AI购物专家”驱动，将商品详情页的“阅读模式”升级为“对话模式”，让用户通过语音实时获取信息，提升电商交互效率与自然度。

24.7k 14 hours ago

亚马逊上线AI语音问答功能，打造 24 小时在线购物专家

ComfyUI完成3000万美元融资:估值达5亿美元，用户数突破400万

ComfyUI，一家由开源项目发展而来的AI初创公司，于4月24日宣布完成3000万美元融资，估值达5亿美元。本轮由Craft Ventures领投，Pace Capital等跟投。其核心产品是基于节点的工作流平台，通过模块化框架解决主流扩散模型在生成图像、视频、音频时缺乏精确控制的问题，让用户能精细调节生成过程的每一步，与Midjourney等提示词驱动的“老虎机”式工具形成对比。

12.7k 10 minutes ago

ComfyUI完成3000万美元融资:估值达5亿美元，用户数突破400万

算力本地化：Speechify 推出原生 Windows 应用挑战系统级听写

Speechify发布原生Windows客户端，从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型，支持跨应用实时听写与文档转录，对标Superwhisper等竞品。为保障响应速度与隐私，在Copilot+ PC等高性能设备上支持完全本地化运行，用户无需上传音频至云端，即可利用本地NPU或GPU驱动的Whisper模型。

11.4k 4 days ago

算力本地化：Speechify 推出原生 Windows 应用挑战系统级听写

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

昆仑万维开源视频生成大模型SkyReels-V3，实现参考图像转视频、视频延长及音频驱动虚拟形象三大功能集成。该模型支持1至4张参考图输入，能精准保留主体身份与构图，推动视频生成技术进入高保真、多模态新阶段。

17.5k 5 hours ago

昆仑万维 SkyReels-V3开源，实现多模态视频生成技术突破

AI Products

VeoOmni

VeoOmni

VeoOmni由谷歌AI驱动，可从文本或图像生成1080p电影级视频并同步音频。

Gemini Omni Video

Gemini Omni Video

由Google Gemini Omni驱动，可从文本或图像生成带同步音频的1080p视频。

Seedance2.0

Seedance2.0

一款由字节跳动推出的 AI 视频生成器，支持多镜头叙事。

Seedance 2.0 AI

Seedance 2.0 AI

AI驱动的视频生成器，可从文本、图像生成2K视频，角色一致、音频同步

Models

Gemini 2.0 Flash-Lite

Google

Gemini 2.0 Flash-Lite

$0.49

Input tokens/M

$2.1

Output tokens/M

1k

Context Length

Gemini 2.5 Flash

Google

Gemini 2.5 Flash

$2.1

Input tokens/M

$17.5

Output tokens/M

1k

Context Length

wan2.5-i2v-preview

Alibaba

wan2.5-i2v-preview

-

Input tokens/M

-

Output tokens/M

-

Context Length

qwen3-omni-30b-a3b-captioner

Alibaba

qwen3-omni-30b-a3b-captioner

$15.8

Input tokens/M

$12.7

Output tokens/M

64

Context Length

百度蒸汽机2.0音视一体

Baidu

百度蒸汽机2.0音视一体

-

Input tokens/M

-

Output tokens/M

-

Context Length

Doubao-1.5-UI-TARS

Bytedance

Doubao-1.5-UI-TARS

$3.5

Input tokens/M

$12

Output tokens/M

128

Context Length

qwen-tts-realtime

Alibaba

qwen-tts-realtime

$2.4

Input tokens/M

$12

Output tokens/M

8

Context Length

Gemma 3n E2B Instructed

Google

Gemma 3n E2B Instructed

-

Input tokens/M

-

Output tokens/M

-

Context Length

Gemma 3n E2B

Google

Gemma 3n E2B

-

Input tokens/M

-

Output tokens/M

-

Context Length

Gemma 3n E4B

Google

Gemma 3n E4B

-

Input tokens/M

-

Output tokens/M

-

Context Length

Gemma 3n E2B Instructed LiteRT (Preview)

Google

Gemma 3n E2B Instructed LiteRT (Preview)

-

Input tokens/M

-

Output tokens/M

-

Context Length

Gemma 3n E4B Instructed LiteRT Preview

Google

Gemma 3n E4B Instructed LiteRT Preview

-

Input tokens/M

-

Output tokens/M

-

Context Length

Gemma 3n E4B Instructed

Google

Gemma 3n E4B Instructed

$140

Input tokens/M

$280

Output tokens/M

32

Context Length

qwen-omni-turbo-realtime

Alibaba

qwen-omni-turbo-realtime

$6

Input tokens/M

$6.4

Output tokens/M

32

Context Length

o3

Openai

$14

Input tokens/M

$56

Output tokens/M

200

Context Length

Gemini 1.5 Flash 8B

Google

Gemini 1.5 Flash 8B

$0.49

Input tokens/M

$2.1

Output tokens/M

1k

Context Length

Gemma 2 9B

Google

Gemma 2 9B

$1

Input tokens/M

-

Output tokens/M

-

Context Length

Gemini 1.5 Pro

Google

Gemini 1.5 Pro

$17.5

Input tokens/M

$70

Output tokens/M

2.1k

Context Length

GPT-4

Openai

GPT-4

$210

Input tokens/M

$420

Output tokens/M

32

Context Length

MCP

strudel-mcp-server

Strudel Mcp Server

一个生产就绪的MCP服务器，通过Strudel.cc实现AI驱动的音乐生成，提供完整的浏览器自动化控制、实时音频分析和模式生成功能

mcp-transcribe

Mcp Transcribe

Transcribe MCP是一个AI驱动的自动化转录工具，支持快速高质量的多语言音频转文字，提供本地和云端服务，并可与多种AI助手集成。

AIBase

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

Business Cooperation Site Map