Speechify在Chrome扩展中新增语音检测功能,支持语音输入和语音助手,旨在提升文档处理效率。该功能利用先进语音识别技术,实时纠错并自动删除多余填充词,帮助用户在竞争激烈的语音工具市场中脱颖而出。
谷歌宣布语音助手服务调整:Google Assistant将于2026年3月31日停用,即日起进入功能迁移阶段。Gemini已接管Android、Wear OS等核心平台,用户可手动切换。关键节点包括:2024年12月Gemini默认处理语音搜索等高频指令;2025年6月Nest设备全面推送Gemini,支持自然语言连续对话。过渡期持续至2026年第一季度。
三星计划在Galaxy S26系列中整合Perplexity AI技术至语音助手Bixby,类似苹果升级Siri的多模型AI策略。爆料显示新版Bixby仍处理本地简单任务,如设备调节,体现三星加强AI领域布局。
AI语音自动化公司Vida完成400万美元A轮融资,由Trammell Venture Partners领投。其AI语音助手已处理超1亿次客户互动,成为全球企业智能语音代理核心平台。融资将用于加速产品创新、拓展行业应用,巩固全球领先地位。
离线AI语音转文字应用,本地运行,隐私安全,一次付费,终身使用。
开源免费的 Wispr Flow 替代方案,为中文用户打造的桌面端语音输入与文本处理工具。
语音转文字工具,让你的语音变成干净标点的文字。
一款支持中英文的对话语音合成模型。
thenexthub
这是一个支持多语言处理的多模态模型,涵盖自然语言处理、代码处理、音频处理等多个领域,能够实现自动语音识别、语音摘要、语音翻译、视觉问答等多种任务。
nineninesix
KaniTTS是一款高速、高保真的文本转语音模型,专为实时对话式人工智能应用而优化。该模型采用两阶段处理流程,结合大语言模型和高效音频编解码器,在Nvidia RTX 5080上生成15秒音频的延迟仅需约1秒,MOS自然度评分达4.3/5,支持英语、中文、日语等多种语言。
malaysia-ai
X-Codec-2.0-25TPS-24k是基于HKUSTAudio/xcodec2改进的语音编解码模型,将每秒处理事务数从50降低到25,同时将输出采样率提升至24kHz,在保持语音质量的同时优化了处理效率。
nvidia
OmniVinci是NVIDIA开发的全模态理解大语言模型,具备视觉、文本、音频处理和语音交互能力,支持多模态推理和理解。
RedHatAI
Voxtral-Mini-3B-2507-FP8-dynamic 是 Voxtral-Mini-3B-2507 的量化版本,针对语音转录、翻译和音频理解进行了优化,采用 FP8 数据类型量化。该模型具有强大的音频理解能力,能处理多种与音频相关的任务。
wcy1122
MGM-Omni-7B是一款全模态聊天机器人,能够处理文本、图像、视频和语音输入,并生成文本和语音响应。它具备长语音理解和生成能力,还支持中英文的零样本语音克隆。
tiantiaf
基于Whisper-small的英语方言分类模型,能够准确识别16种不同的英语方言,为语音处理和语言研究提供支持。
kyutai
京都台文本转语音(TTS)模型是一款用于流式文本转语音的模型,支持实时语音生成和多语言处理。
fixie-ai
Ultravox是一个多模态语音大语言模型,能够理解和处理语音输入,支持多种语言和噪声环境。
Ultravox是一个多模态语音大语言模型,能够同时处理语音和文本输入,为语音交互场景提供强大支持。
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够理解和处理语音输入,支持多语言语音识别、翻译和音频分析等功能。
Ultravox是一个多模态语音大语言模型,结合了预训练大语言模型和语音编码器,能够处理语音和文本输入。
ggml-org
Ultravox v0.5是基于Llama-3 2.1B架构优化的音频文本转文本模型,专注于高效处理语音转写任务。
TEN-framework
TEN VAD 是一个低延迟、轻量级、高性能的流式语音活动检测系统,适用于实时语音处理场景。
轻量级多语言语音活动检测模型,支持中英法德俄西六种语言,参数量仅91.5K,适用于实时语音处理场景
inclusionAI
轻量级统一多模态模型,高效处理图像、文本、音频和视频等多种模态数据,在语音和图像生成方面表现出色。
ibm-granite
专为自动语音识别(ASR)和自动语音翻译(AST)设计的紧凑高效语音语言模型,采用双阶段设计处理音频和文本
mlx-community
这是一个基于MLX格式转换的德语文本转语音模型,支持德语语言处理任务。
这是OpenAI whisper-large-v3模型的FP8量化版本,使用FP8数据类型对模型权重和激活进行量化,可通过vLLM高效推理,专门用于语音识别任务,能够处理音频输入并输出文本内容。
这是OpenAI whisper-large-v3模型的量化版本,通过将权重量化为INT4数据类型,有效提升了推理效率。该模型专门用于语音识别任务,支持多语言语音转文本功能,适用于需要高效语音处理的场景。
ElevenLabs官方MCP服务器,提供文本转语音和音频处理API交互能力
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
一个基于Twilio API的MCP服务器,用于在语音通话中安全处理支付流程,支持异步回调和引导式工作流。
基于Faster Whisper的高性能语音识别MCP服务器,提供高效的音频转写能力,支持批量处理、多模型尺寸和多种输出格式。
Chatty MCP是一款为编辑器设计的语音交互插件,能在完成AI请求后通过语音总结操作内容,提升多任务处理效率,支持自定义语音引擎。
MCP服务工具集合,提供Hugging Face和Dify的AI服务API调用功能,支持多种NLP、CV和语音处理任务。
Votars MCP是一个支持多语言实现的工具,用于与Votars AI平台集成,处理语音转录和AI任务。
一个为Google Dialogflow CX设计的MCP服务器实现,提供AI助手与Dialogflow CX之间的无缝集成。
Groq MCP Server是一个通过Model Context Protocol(MCP)提供快速模型推理的服务,支持文本生成、语音转换、图像分析和批量处理等多种功能。
基于MCP协议的智能宠物伴侣应用,通过语音识别和自然语言处理实现与虚拟宠物的互动,支持多平台运行。
基于大模型的智能对话机器人项目,支持多平台接入和多种AI模型,具备文本、语音、图像处理及插件扩展能力,可定制企业AI应用。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具,支持图像生成、语音处理、视觉模型等多种AI功能,与Claude Desktop无缝集成。
一个基于Twilio API的MCP服务器,用于在语音通话中处理安全支付,支持异步回调和引导式工作流。