华为将于2026年上半年推出新一代AI眼镜,在保留音频功能基础上,首次加入高清拍照,并深度整合鸿蒙系统,支持跨设备协同、实时翻译等AI体验。产品延续轻量化设计,内置三块高密度电池以提升续航,标志着华为向全场景智能交互迈出关键一步。
华为计划2026年上半年推出新款AI眼镜,主打轻量化设计,内置三块锂电池,提供流光银、钛银灰和摩登黑三种配色。产品搭载鸿蒙系统,支持跨端协同、同传翻译、拍照及音频功能,探索AI交互新体验。随着智能眼镜被预测为2025年消费电子增长黑马,此举显示华为正深化AI终端布局。
京东启动首届AI影视创作大赛,以年货节IP“马红红”、数字人男团E‘Core或指定商品形象为核心,面向全网征集AIGC原创短片。参赛视频需15秒以上,不限AI工具,涵盖画面生成、数字人驱动、音频合成等。作品鼓励AIGC创新,但非AI素材需持有商用授权。
公司计划于2026年9月发布代号“Sweetpea”的AI音频设备,目标首年出货4000万至5000万台。该设备采用椭圆形金属外壳与双胶囊后挂设计,内置2纳米AI芯片,并集成肌电信号等多模态交互组件。
免费AI工具,无需注册,可将PDF快速转为含音频、动画和视觉效果的MP4视频
免费无审查的AI视频工作室,集视频、图像、音频生成于一体
ReelMuse.ai是一体化AI平台,可生成视频、图像和音频等。
SimpleClean免费去除音视频背景噪音,是播客、视频和旁白的最佳AI音频清洁器。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$2.8
$7
$35
$17.5
$21
Alibaba
-
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,采用两阶段管道结合大型语言模型和高效音频编解码器,实现卓越的速度和音频质量。该模型支持西班牙语,具有4亿参数,采样率为22kHz。
KaniTTS是一款专为实时对话式人工智能应用优化的高速、高保真阿拉伯语文本转语音模型。它采用两阶段流水线架构,结合大语言模型与高效音频编解码器,实现卓越的速度和音频质量,能够满足对话式AI、无障碍辅助、研究等多领域的语音合成需求。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型。它采用两阶段流水线架构,结合大语言模型和高效音频编解码器,实现了卓越的速度和音频质量,支持多种语言并适用于边缘/服务器部署。
LiquidAI
LFM2-Audio-1.5B是Liquid AI推出的首个端到端音频基础模型,专为低延迟和实时对话设计。该模型仅15亿参数,能够实现无缝的对话交互,其能力可与参数规模大得多的模型相媲美。
awsaf49
用于检测端到端AI生成歌曲的先进模型,特别擅长识别长时程伪造音频特征
用于检测端到端AI生成歌曲的先进模型,特别擅长捕捉长时音频特征
Mrkomiljon
基于Wav2Vec2微调的音频分类器,能够区分真人语音和AI生成语音。
facebook
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量音乐样本。
MusicGen是一款由Meta AI开发的文本生成音乐模型,能够根据文本描述或音频提示生成高质量立体声音乐样本。
MusicGen是一款由Meta AI开发的文本生成音乐模型,支持立体声生成,能够根据文本描述或音频提示生成高质量音乐样本。
Meta AI开发的高保真实时神经音频编解码器,专为MusicGen项目训练
EnCodec是由Meta AI开发的实时高保真神经音频编解码器,支持多种带宽配置和流式处理。
EnCodec是由Meta AI开发的高保真实时神经音频编解码器,采用端到端训练方式,支持多种带宽设置。
gary109
基于wav2vec2-large-xlsr-53的自动语音识别模型,专为StepMania游戏音频优化,在GARY109/AI_LIGHT_DANCE数据集上微调
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
该项目通过Model Context Protocol实现Claude AI与Pure Data的集成,支持通过自然语言动态创建、修改和控制Pure Data音频处理模块。
一个生产就绪的MCP服务器,通过Strudel.cc实现AI驱动的音乐生成,提供完整的浏览器自动化控制、实时音频分析和模式生成功能
一个为AI助手提供音频输入输出功能的MCP服务器
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
Carla MCP服务器是一个专业的音频制作AI控制平台,通过45个工具提供完整的音频插件宿主控制,支持自然语言操作专业音频工作流程
REAPER MCP Server是一个全面的模型上下文协议服务器,使AI代理能够在REAPER中创建完全混音和母带处理的音轨,支持MIDI和音频功能。
一个基于MCP协议的AI语音呼叫系统,通过VoIP技术让Claude等AI助手能够自动拨打电话并进行智能对话,支持多种SIP协议和音频编解码器。
一个提供音频输入/输出功能的MCP服务器,支持AI助手如Claude与电脑音频系统交互,包括录音、播放音频文件等功能。
一个为macOS提供全面音频播放功能的MCP服务器,支持系统声音、文本转语音和自定义音频文件播放,适用于AI助手等MCP客户端。
一个为AI代理提供音频播放功能的MCP服务器,可在编码任务完成时播放提示音,支持自定义音频和智能回退机制,目前主要支持macOS平台。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
一个完整的Groq MCP服务器项目,作为智能桥梁连接应用与Groq API,支持多种AI模型(文本、音频、视觉、批处理),具备智能路由、速率限制、缓存优化等高级功能。
Luma AI MCP服务器是一个基于Model Context Protocol的服务,集成了Luma AI的Dream Machine API(v1),提供AI生成视频/图像的工具集,包括文本/图像转视频、视频扩展、音频添加、画质提升等功能,支持通过Claude Desktop直接调用。
一个基于FastAPI和FastMCP的模块化服务器,集成了数学工具、天气API、网页搜索、音频生成及外部API调用功能,支持AI工具调用和资源路由。
Transcribe MCP是一个AI驱动的自动化转录工具,支持快速高质量的多语言音频转文字,提供本地和云端服务,并可与多种AI助手集成。
VideoCutter是一款集成视频、音频、图像处理的专业多媒体工具,支持AI智能编辑和MCP协议,提供一站式智能化创作解决方案。
Radio France播客探索MCP服务是一个模型控制协议服务器,允许AI助手搜索和浏览Radio France的播客、音频回放等内容。提供基于主题的播客搜索、电台节目信息获取、分类内容浏览等功能。
ExotelMCP是一个模型上下文协议(MCP)服务器,提供Claude AI与Exotel通信API的无缝集成,支持短信、语音通话和快速音频工具服务。