小米AI眼镜固件更新至1.4.16.0,新增抖音直播支持、小爱同学控车功能,并推出“英语口语陪练”特色服务,用户可通过语音指令开启,与小爱同学自然对话,提升英语口语能力,增强设备智能性和用户体验。
StepFun AI发布开源音频编辑模型Step-Audio-EditX,该3B参数模型将音频编辑转化为类似文本编辑的令牌操作,实现直接可控的语音编辑。它解决了当前零样本文本转语音系统在情感、风格等控制上的局限,使表达性语音编辑更简单精确。
前Meta员工创立的Sandbar公司推出Stream智能戒指,定位“语音鼠标”,支持语音记录想法、控制音乐及AI交互,旨在便捷管理日常任务。创始人包括CEO米娜・法赫米和CTO基拉克・洪。
微软将Copilot深度集成至Windows 11,推出生成式AI功能,通过语音控制(如“嘿,Copilot”唤醒)、屏幕内容分析和本地自动化,旨在彻底改变用户与PC的交互方式,使其成为主要操作界面。
管理Gmail的最佳AI助手,通过语音命令无需触摸即可管理收件箱。
开源的高质量文本转语音模型,支持情感控制。
Zonos TTS 是一款支持多语言、情感控制和零样本文本到语音克隆的高质量 AI 文本转语音技术。
Whisper Input 是一个通过按键控制语音录制并快速转译的工具。
notmax123
Zonos-v0.1 是一款领先的开源文本转语音(TTS)模型,基于超过20万小时的多语言语音数据训练,在表现力和质量上可与顶级TTS供应商相媲美。支持零样本语音克隆、多语言合成和精细的音频控制。
Lorenzob
Aurora-1.6B是基于Dia-1.6B微调的多语言情感与歌唱语音合成模型,支持多种语言和情感控制,具备零样本音色克隆能力。
基于Dia-1.6B微调的多语种情感与歌唱语音合成模型,支持音色克隆和情感控制
Emova-ollm
EMOVA是一种端到端全能模态大语言模型,支持视觉、听觉和语音功能,能够生成具有情感控制的文本和语音响应。
Prince-1
基于Llama架构的语音大模型,专为高质量文本转语音设计,支持情感控制和实时流式传输
nari-labs
Dia是由Nari实验室开发的16亿参数文本转语音模型,能够直接从文本生成高度逼真的对话,支持情感和语调控制,并能生成非语言交流内容。
YaTharThShaRma999
基于Llama架构的高质量文本转语音模型,支持情感控制和音色克隆
chutesai
ajd12342
一个通过文本风格提示控制丰富语音风格的文本转语音模型
基于Parler-TTS Mini v1微调的文本转语音模型,支持通过风格提示控制语音输出
firstpixel
基于F5-TTS的巴西葡萄牙语文本转语音模型,支持情感标记和说话者特征控制
EMOVA语音分词器是一个支持中英文的离散语音分词器,采用语义-声学解耦设计,支持灵活语音风格控制。
mradovic38
基于wav2vec2的塞尔维亚语智能家居语音指令识别模型,可识别7种控制指令
parler-tts
Parler-TTS Mini v1.1 是一个轻量级的文本转语音模型,基于45,000小时的音频数据训练而成,能够生成高质量、自然流畅的语音,其特性可以通过简单的文本提示进行控制。
轻量级文本转语音模型,基于4.5万小时音频数据训练,可通过文本提示控制语音特性
拥有22亿参数的文本转语音模型,基于4.5万小时音频数据训练,支持通过文本提示控制语音特征
轻量级文本转语音模型,基于4.5万小时音频训练,支持通过文本提示控制语音特征
Parler-TTS Mini:Expresso是基于Parler-TTS Mini v0.1在Expresso数据集上微调的轻量级文本转语音模型,支持情感和说话者控制。
ipsilondev
Parler-TTS Mini v0.1 是一个轻量级的文本转语音模型,基于10.5K小时的音频数据训练而成,能够生成高质量、自然流畅的语音,并通过简单的文本提示控制语音特征。
Parler-TTS Mini 是一个轻量级的文本转语音模型,基于10.5K小时音频数据训练,支持通过文本提示控制语音特征。
SystemPrompt Coding Agent 是一个开源项目,将本地工作站转变为可通过MCP协议远程控制的AI编程助手,支持语音命令和移动端操作,实现异地编程管理。
TeamSpeak MCP是一个基于Model Context Protocol的服务,用于通过AI模型(如Claude)控制TeamSpeak服务器,提供全面的频道管理、用户权限控制、语音调节等功能。
TeamSpeak MCP是一个基于Model Context Protocol的服务器控制工具,专门用于让AI模型(如Claude)管理TeamSpeak语音服务器。它提供39种功能工具,涵盖用户管理、频道控制、权限配置等全方位操作,支持多种部署方式(PyPI/Docker/本地),实现自动化TeamSpeak管理。
集成LiveKit智能代理与Home Assistant MCP服务,实现通过语音控制智能家居
一个通过Claude等LLM接口控制飞利浦Hue智能灯的MCP服务器项目
一个用于在MacOS上运行应用的MCP服务器应用
一个基于MCP框架的多功能TTS服务器,整合了Kokoro本地TTS和OpenAI云端TTS引擎,支持实时音频流、语音定制及播放控制。
IntelliGlow是一个基于MCP协议的智能照明系统,通过AI助手控制真实智能灯泡,支持语音命令、AI推理和直接硬件控制,实现自然语言交互和智能灯光管理。
Home Assistant MCP集成套件,实现多MCP服务器(如Microsoft 365、BookStack、Loki)的全面接入与语音控制,提供统一可扩展的智能家居管理接口。
一个提供统一接口控制Spotify播放的媒体控制协议服务器,支持REST API、AI助手和语音控制
Windows TTS MCP Server是一个基于PowerShell的文本转语音服务,为Claude Desktop提供稳定高效的TTS功能,支持语音控制、速度调节和紧急静音等操作。
IntelliGlow是一个基于MCP协议的AI智能照明控制系统,通过UDP网络直接控制真实智能灯泡,支持语音命令、AI推理和硬件控制,实现自然语言交互与智能家居的无缝对接。