亚马逊于4月30日推出“Join the chat”AI音频问答功能,由数字“AI购物专家”驱动,将商品详情页的“阅读模式”升级为“对话模式”,让用户通过语音实时获取信息,提升电商交互效率与自然度。
Anthropic宣布Claude与Adobe、Blender等八大创意软件深度互联,通过新增连接器将AI能力融入平面设计、3D建模和音频制作流程。在视觉创作领域,与Adobe的整合尤为突出,创作者可直接在常用软件中调用Claude,提升工作效率。
ComfyUI,一家由开源项目发展而来的AI初创公司,于4月24日宣布完成3000万美元融资,估值达5亿美元。本轮由Craft Ventures领投,Pace Capital等跟投。其核心产品是基于节点的工作流平台,通过模块化框架解决主流扩散模型在生成图像、视频、音频时缺乏精确控制的问题,让用户能精细调节生成过程的每一步,与Midjourney等提示词驱动的“老虎机”式工具形成对比。
华为高端智能音箱Sound X5于4月20日开启预售。新品核心亮点是首次深度集成AI大模型,实现从“听觉交互”到“智慧陪伴”的升级。声学方面延续家族高规格,预计采用多单元组合。
用 Happy Horse AI 创建引人注目的视频,将文本、图像和音频转化为电影般的视频。
Happy Horse 1.0是在线AI视频生成器,支持文本和图像转视频,无音频。
AIGPTS集成顶尖AI模型,可快速创建视频、图像、音频等AI内容。
免费AI视频生成器,基于Happy Horse 1.0,可从文本或图像生成含音频视频。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$2.8
$7
$35
$17.5
$21
Alibaba
-
$6
$24
256
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
awsaf49
用于检测端到端AI生成歌曲的先进模型,特别擅长识别长时程伪造音频特征
用于检测端到端AI生成歌曲的先进模型,特别擅长捕捉长时音频特征
Mrkomiljon
基于Wav2Vec2微调的音频分类器,能够区分真人语音和AI生成语音。
facebook
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量音乐样本。
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量立体声音乐样本。
MusicGen是一款由Meta AI开发的文本生成音乐模型,支持立体声生成,能够根据文本描述或音频提示生成高质量音乐样本。
Meta AI开发的高保真实时神经音频编解码器,专为MusicGen项目训练
EnCodec是由Meta AI开发的实时高保真神经音频编解码器,支持多种带宽配置和流式处理。
EnCodec是由Meta AI开发的高保真实时神经音频编解码器,采用端到端训练方式,支持多种带宽设置。
gary109
基于wav2vec2-large-xlsr-53的自动语音识别模型,专为StepMania游戏音频优化,在GARY109/AI_LIGHT_DANCE数据集上微调
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
一个生产就绪的MCP服务器,通过Strudel.cc实现AI驱动的音乐生成,提供完整的浏览器自动化控制、实时音频分析和模式生成功能
该项目通过Model Context Protocol实现Claude AI与Pure Data的集成,支持通过自然语言动态创建、修改和控制Pure Data音频处理模块。
一个为AI助手提供音频输入输出功能的MCP服务器
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
一个通过PTSL gRPC API连接AI助手与Pro Tools的MCP服务器,提供会话管理、时间线导航、音频分析等功能,具有细粒度权限控制和安全保护机制。
Carla MCP服务器是一个专业的音频制作AI控制平台,通过45个工具提供完整的音频插件宿主控制,支持自然语言操作专业音频工作流程
RAGStack-Lambda是一个基于AWS Lambda的无服务器AI文档与媒体处理平台,支持上传文档、图片、视频和音频,通过OCR、转录和向量化技术构建知识库,并提供带来源追溯的AI聊天功能。采用按需付费的零闲置成本架构。
一个提供音频输入/输出功能的MCP服务器,支持AI助手如Claude与电脑音频系统交互,包括录音、播放音频文件等功能。
REAPER MCP Server是一个全面的模型上下文协议服务器,使AI代理能够在REAPER中创建完全混音和母带处理的音轨,支持MIDI和音频功能。
一个基于MCP协议的AI语音呼叫系统,通过VoIP技术让Claude等AI助手能够自动拨打电话并进行智能对话,支持多种SIP协议和音频编解码器。
一个基于MCP协议的媒体编辑服务器,提供视频剪辑、音频转录和主题缩略图生成功能,支持与Claude等AI助手集成实现自动化媒体处理。
一个为macOS提供全面音频播放功能的MCP服务器,支持系统声音、文本转语音和自定义音频文件播放,适用于AI助手等MCP客户端。
一个为AI代理提供音频播放功能的MCP服务器,可在编码任务完成时播放提示音,支持自定义音频和智能回退机制,目前主要支持macOS平台。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
一个完整的Groq MCP服务器项目,作为智能桥梁连接应用与Groq API,支持多种AI模型(文本、音频、视觉、批处理),具备智能路由、速率限制、缓存优化等高级功能。
Luma AI MCP服务器是一个基于Model Context Protocol的服务,集成了Luma AI的Dream Machine API(v1),提供AI生成视频/图像的工具集,包括文本/图像转视频、视频扩展、音频添加、画质提升等功能,支持通过Claude Desktop直接调用。
这是一个为macOS上的Apple语音备忘录提供程序化访问的MCP服务器,允许AI助手浏览、获取音频和转录语音备忘录。
x402engine-mcp是一个为AI代理提供HTTP 402微支付访问38个按次付费API的MCP服务器,支持使用USDC和USDm进行支付,涵盖LLM推理、图像生成、代码执行、音频处理、区块链数据等多种服务。