OpenAI将实时语音与视觉功能整合进ChatGPT主界面,用户按住麦克风图标即可边说话边查看地图、图表等视觉内容,文字转录同步显示。更新亮点包括多模态同屏交互(语音提问时实时展示相关图像并自动滚动文字),以及连续对话无中断(语音回复同时更新画面,延迟低于300毫秒),无需跳转页面。
OpenAI将ChatGPT语音模式整合进主界面,用户可直接语音对话并实时查看相关视觉信息,如地图、图片等,同时自动生成文字转录稿,方便回顾。此前该功能需手动切换,现已无缝集成。
通义千问推出最新语音识别模型Qwen3-ASR-Flash,基于Qwen3基座模型,经海量多模态数据和数千万小时ASR数据训练,具备高精度、高鲁棒性。核心特性包括领先的识别准确率和出色的歌声识别能力,在多个中英文及多语种基准测试中表现优异。
谷歌在英国推出AI搜索新模式,基于Gemini2.5模型支持复杂提问,可处理多部分问题。新功能采用查询扩展技术,将问题分解为子主题并行搜索,提供更精准回答。支持文字/语音/图像多种交互方式,用户可上传图片或语音提问。AI模式会评估回答可信度,低信度时转为传统搜索结果。该功能旨在提升搜索深度和效率,同时促进网站流量多元化。目前仍在优化中,谷歌鼓励用户反馈使用体验。
一体化AI创意平台,集视频、图像、音乐、语音合成等功能于一体。
先进的文本转语音模型,提供高质量的语音合成服务。
Noiz AI提供自然流畅的语音合成服务,应用场景丰富,生成高效。
离线AI语音转文字应用,本地运行,隐私安全,一次付费,终身使用。
Alibaba
$8
Input tokens/M
$240
Output tokens/M
52
Context Length
$3.9
$15.2
64
$15.8
$12.7
-
$2.4
$12
8
$1.6
$10
Xai
$21
$105
128
Openai
$3.5
$10.5
16
Anthropic
200
eustlb
这是一个基于Hugging Face Transformers库的自动语音识别模型,能够将音频内容转换为文本。该模型支持多种语言,适用于实时语音转文字、音频转录等场景。
Lamapi
NextVoice是由Lamapi开发的开源语音转文字解决方案,支持高质量转录和实时处理。
ai4bharat
基于SeamlessM4T-v2微调的印度语言语音转文字翻译模型,支持13种印度语言,性能超越基础模型及竞争系统。
Baselhany
该模型是基于openai/whisper-base在quran-ayat-speech-to-text数据集上微调的阿拉伯语语音识别模型,专注于古兰经经文的语音转文字任务。
samolego
该模型是基于openai/whisper-small在斯洛文尼亚语ASR数据库ARTUR 1.0上微调的语音识别模型,支持斯洛文尼亚语语音转文字任务。
Systran
Whisper large-v2是OpenAI开发的大规模自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
Whisper large-v3是OpenAI开发的大规模多语言自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
Xenova
Whisper-large-v3是OpenAI开源的自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
facebook
Meta公司开发的塔马哈克语-塔瓦拉马特方言文本转语音模型,支持提非纳文字,属于大规模多语言语音项目的一部分。
Meta公司开发的乌尔都语文本转语音模型,支持阿拉伯文字输入,属于MMS多语言语音项目的一部分
guillaumekln
Whisper基础模型是OpenAI开发的自动语音识别(ASR)模型,支持多种语言的语音转文字任务。
bofenghuang
基于openai/whisper-large-v2在Common Voice 11.0德语数据集上微调的自动语音识别模型,支持德语语音转文字,词错误率5.76
基于openai/whisper-small在Common Voice 11.0德语数据集上微调的语音识别模型,支持德语语音转文字并预测大小写和标点符号。
dasolj
基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型,专注于英语语音转文字任务
sharpcoder
wav2vec 2.0 是一个自监督学习的语音识别模型,通过大量未标注的语音数据进行预训练,能够高效地进行语音转文字任务。
chrisvinsen
基于facebook/wav2vec2-base微调的语音识别模型,支持自动语音转文字任务
wrice
该模型是基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型,专注于英语语音转文字任务。
patrickvonplaten
该模型是基于facebook/wav2vec2-base在TIMIT数据集上微调的语音识别模型,主要用于英语语音转文字任务。
hassnain
arampacha
基于facebook/wav2vec2-xls-r-300m模型在亚美尼亚语数据集上微调的自动语音识别(ASR)模型,支持亚美尼亚语语音转文字任务。
一个基于FastMCP的服务,利用Replicate和0x0.st实现YouTube/Bilibili视频的在线转录功能,提供带时间戳的文本输出和临时文件托管。
mcp-audio是一个符合AIO-2030标准的MCP插件,提供语音转文字功能,支持多种音频格式和API调用方式。
一个基于ElevenLabs Scribe语音转文字API的MCP服务器实现,提供实时转录、文件转录、上下文管理和双向流式通信功能。
该项目包含两个MCP服务器:文件搜索和语音转文字,提供VS Code集成和HTTP API支持。