播客应用Overcast开发者Marco Arment为降低AI服务成本,自建48台Mac mini服务器集群。他利用Apple Silicon芯片的高能效和统一内存优势,运行本地语音转录,以替代昂贵的云端AI服务。
谷歌推出iOS离线语音听写应用Google AI Edge Eloquent,基于轻量化模型Gemma实现本地处理,无需网络即可运行,既保护隐私又提升效率。应用能自动润色转录内容,解决语音转文字中常见的废话多、语句不通顺问题。
Speechify发布原生Windows客户端,从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型,支持跨应用实时听写与文档转录,对标Superwhisper等竞品。为保障响应速度与隐私,在Copilot+ PC等高性能设备上支持完全本地化运行,用户无需上传音频至云端,即可利用本地NPU或GPU驱动的Whisper模型。
OpenAI推出两项API更新,提升AI智能体在语音交互与复杂任务中的性能。全新实时模型gpt-realtime-1.5及配套音频模型,显著提高语音命令可靠性。内部测试显示,新模型在数字字母转录准确率上提升约10%,逻辑音频任务准确率提高5%,指令执行准确率提升7%。
TicNote Cloud是AI工作空间,可转录会议、读取文件并自动完成工作。
世界排名第一的环保型神经AI媒体引擎,提供高精度转录和媒体转换。
免费AI转录工具,可将音视频转文本,支持多语言及免费AI摘要
Saveto AI可快速精准转录、翻译超150种语言,适用于多场景。
Xai
$1.4
输入tokens/百万
$3.5
输出tokens/百万
2k
上下文长度
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
RinggAI
这是一个专为通话记录分析打造的混合语言AI模型,能够处理印地语、英语和混合印地英语的通话转录内容。模型基于Qwen2.5-1.5B-Instruct进行微调,具备强大的多语言理解和信息提取能力。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
ClinicianFOCUS
Clinician Note 是一款免费的AI记录员,可将医患互动转录文本转换为临床记录。
nvidia
这是一个用于转录普通话语音的大型Conformer-Transducer模型,参数约1.2亿,在AISHELL-2数据集上训练。
cwkeam
Meta AI推出的大规模多语言语音识别模型,具有10亿参数,支持60种语言的字符级转录
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立服务运行。
YouTube视频分析MCP服务,提供转录提取、内容摘要和AI查询功能
一个为Transcripter项目实现的MCP服务器,提供基于AI的转录搜索、摘要生成等功能,支持标准化模型交互协议。
一个基于Whisper模型的语音录制和转录MCP服务器,可作为Goose AI扩展或独立运行,支持多种录音场景和模型配置。
Fathom AI MCP服务器是一个连接Claude与Fathom会议、转录和AI摘要的工具,通过安全的OAuth认证实现数据直传,不存储用户数据。
Votars MCP是一个支持多语言实现的工具,用于与Votars AI平台集成,处理语音转录和AI任务。
一个提供会议数据管理的MCP服务器,支持会议记录、转录、日历事件管理和搜索功能,可集成AI助手进行自动化会议管理。
ChatterBox MCP服务器是一个让AI助手能够加入在线会议(Zoom、Google Meet、Teams)、捕获会议转录和录音,并生成会议摘要的模型上下文协议服务。
RAGStack-Lambda是一个基于AWS Lambda的无服务器AI文档与媒体处理平台,支持上传文档、图片、视频和音频,通过OCR、转录和向量化技术构建知识库,并提供带来源追溯的AI聊天功能。采用按需付费的零闲置成本架构。
ChatSpatial是一个基于自然语言的MCP服务器,用于空间转录组学分析,支持60多种方法,涵盖空间域识别、细胞通讯、轨迹分析等15个类别,可与多种MCP兼容的AI客户端配合使用。
一个基于MCP协议的媒体编辑服务器,提供视频剪辑、音频转录和主题缩略图生成功能,支持与Claude等AI助手集成实现自动化媒体处理。
MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器,提供高级音频转录、格式转换、批量处理和文本转语音等功能,通过Model Context Protocol标准实现与AI助手的无缝交互。
这是一个为macOS上的Apple语音备忘录提供程序化访问的MCP服务器,允许AI助手浏览、获取音频和转录语音备忘录。
Transcribe MCP是一个AI驱动的自动化转录工具,支持快速高质量的多语言音频转文字,提供本地和云端服务,并可与多种AI助手集成。
MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术,支持持久化说话人识别(一次注册,永久识别)、双检测器情感分析(结合通用AI与个性化声纹)、实时流处理、REST API和MCP服务器,专为AI智能体集成和爱好项目设计。