Best AI音频 AI Tools & Models - Premium AI音频 News

AI News

亚马逊上线AI语音问答功能，打造 24 小时在线购物专家

亚马逊于4月30日推出“Join the chat”AI音频问答功能，由数字“AI购物专家”驱动，将商品详情页的“阅读模式”升级为“对话模式”，让用户通过语音实时获取信息，提升电商交互效率与自然度。

Claude深度集成Adobe、Blender等八大神器，AI代画代练时代开启？

Anthropic宣布Claude与Adobe、Blender等八大创意软件深度互联，通过新增连接器将AI能力融入平面设计、3D建模和音频制作流程。在视觉创作领域，与Adobe的整合尤为突出，创作者可直接在常用软件中调用Claude，提升工作效率。

15k 17 minutes ago

ComfyUI完成3000万美元融资:估值达5亿美元，用户数突破400万

ComfyUI，一家由开源项目发展而来的AI初创公司，于4月24日宣布完成3000万美元融资，估值达5亿美元。本轮由Craft Ventures领投，Pace Capital等跟投。其核心产品是基于节点的工作流平台，通过模块化框架解决主流扩散模型在生成图像、视频、音频时缺乏精确控制的问题，让用户能精细调节生成过程的每一步，与Midjourney等提示词驱动的“老虎机”式工具形成对比。

12.2k 2 hours ago

华为 Sound X 5 官宣预售：AI 大模型赋能音频新体验

华为高端智能音箱Sound X5于4月20日开启预售。新品核心亮点是首次深度集成AI大模型，实现从“听觉交互”到“智慧陪伴”的升级。声学方面延续家族高规格，预计采用多单元组合。

15.9k 2 days ago

AI Products

Meloflow

全链路AI音乐创作平台，支持从文本、歌词生成高质量原创歌曲及音频编辑。

音乐生成

4.8k

Gemini Omni Video

由Google Gemini Omni驱动，可从文本或图像生成带同步音频的1080p视频。

视频生成

3.9k

Wondershare Repairit

全能型AI数据修复工具，一键修复损坏的视频、照片、文档及音频文件。

图片增强

4.9k

Veo 4 AI

veo 4 是一款支持 4K 分辨率、原生音频同步及角色一致性的生成式 AI 视频制作工具。

视频生成

6.2k

Models

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

MCP

Strudel Mcp Server

一个生产就绪的MCP服务器，通过Strudel.cc实现AI驱动的音乐生成，提供完整的浏览器自动化控制、实时音频分析和模式生成功能

typescript

2.5points

MCPollinations

MCPollinations是一个基于Model Context Protocol（MCP）的多模态AI服务，支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务，兼容多种AI模型，并支持图像保存和Base64编码返回。

javascript

10.1k

2.5points

Pd MCP Server

该项目通过Model Context Protocol实现Claude AI与Pure Data的集成，支持通过自然语言动态创建、修改和控制Pure Data音频处理模块。

python

10k

2.5points

Audio Interface

一个为AI助手提供音频输入输出功能的MCP服务器

python

9.7k

2.5points

Gemini Media Analysis

一个基于Google Gemini AI的MCP服务器，提供图像、音频和视频识别功能，支持多种传输方式和客户端集成。

typescript

10.1k

2.5points

Protools Mcp Server

一个通过PTSL gRPC API连接AI助手与Pro Tools的MCP服务器，提供会话管理、时间线导航、音频分析等功能，具有细粒度权限控制和安全保护机制。

typescript

2.5points

Mcp Audio

mcp-audio是一个符合AIO-2030标准的MCP插件，提供语音转文字功能，支持多种音频格式和API调用方式。

python

9.9k

2.5points

Carla Mcp Server

Carla MCP服务器是一个专业的音频制作AI控制平台，通过45个工具提供完整的音频插件宿主控制，支持自然语言操作专业音频工作流程

python

10.4k

2.5points

Audio MCP Server

一个提供音频输入/输出功能的MCP服务器，支持AI助手如Claude与电脑音频系统交互，包括录音、播放音频文件等功能。

python

11.9k

2.5points

Ragstack Lambda

RAGStack-Lambda是一个基于AWS Lambda的无服务器AI文档与媒体处理平台，支持上传文档、图片、视频和音频，通过OCR、转录和向量化技术构建知识库，并提供带来源追溯的AI聊天功能。采用按需付费的零闲置成本架构。

typescript

5.7k

2.5points

Callcenter.js Mcp

一个基于MCP协议的AI语音呼叫系统，通过VoIP技术让Claude等AI助手能够自动拨打电话并进行智能对话，支持多种SIP协议和音频编解码器。

typescript

2.5points

REAPER

REAPER MCP Server是一个全面的模型上下文协议服务器，使AI代理能够在REAPER中创建完全混音和母带处理的音轨，支持MIDI和音频功能。

python

11.8k

2.5points

Media Editor

一个基于MCP协议的媒体编辑服务器，提供视频剪辑、音频转录和主题缩略图生成功能，支持与Claude等AI助手集成实现自动化媒体处理。

python

6.8k

2.0points

Mcp Make Sound

一个为macOS提供全面音频播放功能的MCP服务器，支持系统声音、文本转语音和自定义音频文件播放，适用于AI助手等MCP客户端。

typescript

10.7k

2.0points

Play Sound Mcp Server

一个为AI代理提供音频播放功能的MCP服务器，可在编码任务完成时播放提示音，支持自定义音频和智能回退机制，目前主要支持macOS平台。

python

2.0points

Mcp Server Whisper

MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器，提供高级音频转录、格式转换、批量处理和文本转语音等功能，通过Model Context Protocol标准实现与AI助手的无缝交互。

python

11.4k

2.0points

Groqcloud Mcp_server

一个完整的Groq MCP服务器项目，作为智能桥梁连接应用与Groq API，支持多种AI模型（文本、音频、视觉、批处理），具备智能路由、速率限制、缓存优化等高级功能。

typescript

10.6k

2.0points

Bobtista_luma Ai Mcp Server

Luma AI MCP服务器是一个基于Model Context Protocol的服务，集成了Luma AI的Dream Machine API(v1)，提供AI生成视频/图像的工具集，包括文本/图像转视频、视频扩展、音频添加、画质提升等功能，支持通过Claude Desktop直接调用。

python

10.5k

2.0points

Apple Voice Memo Mcp

这是一个为macOS上的Apple语音备忘录提供程序化访问的MCP服务器，允许AI助手浏览、获取音频和转录语音备忘录。

typescript

6.9k

2.0points

MCP_Server_Practice

一个基于FastAPI和FastMCP的模块化服务器，集成了数学工具、天气API、网页搜索、音频生成及外部API调用功能，支持AI工具调用和资源路由。

python

8.9k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

亚马逊上线AI语音问答功能，打造 24 小时在线购物专家

Claude深度集成Adobe、Blender等八大神器，AI代画代练时代开启？

ComfyUI完成3000万美元融资:估值达5亿美元，用户数突破400万

华为 Sound X 5 官宣预售：AI 大模型赋能音频新体验

AI Products

Meloflow

Gemini Omni Video

Wondershare Repairit

Veo 4 AI

Models

Gemini 2.0 Flash-Lite

Grok 4 Fast

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

wan2.5-i2i-preview

Qianfan-Lightning

qwen3-max

qwen-image-edit

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

wan2.5-t2v-preview

wan2.5-t2i-preview

wan2.5-i2v-preview

qwen3-omni-flash-realtime

Kani Tts 400m Es

Kani Tts 400m Ar

Kani Tts 400m En

Kani Tts 370m

LFM2 Audio 1.5B

Sonics Spectttra Alpha 5s

Sonics Spectttra Gamma 5s

VoiceGUARD

Musicgen Melody Large

Musicgen Stereo Melody

Musicgen Stereo Large

Encodec_32khz

Encodec_48khz

Encodec_24khz

Ai Light Dance_stepmania_ft_wav2vec2 Large Xlsr 53 V7

MCP

Strudel Mcp Server

MCPollinations

Pd MCP Server

Audio Interface

Gemini Media Analysis

Protools Mcp Server

Mcp Audio

Carla Mcp Server

Audio MCP Server

Ragstack Lambda

Callcenter.js Mcp

REAPER

Media Editor

Mcp Make Sound

Play Sound Mcp Server

Mcp Server Whisper

Groqcloud Mcp_server

Bobtista_luma Ai Mcp Server

Apple Voice Memo Mcp

MCP_Server_Practice