最好的AI转录 AI工具模型_精选AI转录资讯

AI资讯

开发者自建 48 台 Mac mini 集群，破解云 AI 服务高昂成本

播客应用Overcast开发者Marco Arment为降低AI服务成本，自建48台Mac mini服务器集群。他利用Apple Silicon芯片的高能效和统一内存优势，运行本地语音转录，以替代昂贵的云端AI服务。

11k 4 小时前

谷歌发布首款离线 AI 听写应用 Eloquent：手机秒变专业速录员

谷歌推出iOS离线语音听写应用Google AI Edge Eloquent，基于轻量化模型Gemma实现本地处理，无需网络即可运行，既保护隐私又提升效率。应用能自动润色转录内容，解决语音转文字中常见的废话多、语句不通顺问题。

11.8k 37 分钟前

算力本地化：Speechify 推出原生 Windows 应用挑战系统级听写

Speechify发布原生Windows客户端，从文本转语音工具升级为全栈语音助手。应用集成三类本地AI模型，支持跨应用实时听写与文档转录，对标Superwhisper等竞品。为保障响应速度与隐私，在Copilot+ PC等高性能设备上支持完全本地化运行，用户无需上传音频至云端，即可利用本地NPU或GPU驱动的Whisper模型。

10k 前天

OpenAI 语音 API 大进化：数字转录更精准，代理速度狂飙 40%

OpenAI推出两项API更新，提升AI智能体在语音交互与复杂任务中的性能。全新实时模型gpt-realtime-1.5及配套音频模型，显著提高语音命令可靠性。内部测试显示，新模型在数字字母转录准确率上提升约10%，逻辑音频任务准确率提高5%，指令执行准确率提升7%。

11.7k 6 小时前

AI产品

TicNote Cloud

TicNote Cloud是AI工作空间，可转录会议、读取文件并自动完成工作。

效率工具

GreenConvert

世界排名第一的环保型神经AI媒体引擎，提供高精度转录和媒体转换。

视频编辑

7.5k

EasyScribe

免费AI转录工具，可将音视频转文本，支持多语言及免费AI摘要

语音转文本

5.8k

Saveto AI

Saveto AI可快速精准转录、翻译超150种语言，适用于多场景。

翻译

4.9k

模型

Grok 4 Fast

Xai

$1.4

输入tokens/百万

$3.5

输出tokens/百万

上下文长度

Claude 3 Opus

Anthropic

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

Gemini 2.0 Flash

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

Claude Haiku 4.5

Anthropic

输入tokens/百万

$35

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash

Google

$2.1

输入tokens/百万

$17.5

输出tokens/百万

上下文长度

Claude Sonnet 4.5

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Claude 3 Sonnet

Anthropic

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

Gemini 2.5 Flash-Lite

Google

$0.7

输入tokens/百万

$2.8

输出tokens/百万

上下文长度

qwen-image-plus

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Qianfan-Lightning

Baidu

输入tokens/百万

输出tokens/百万

128

上下文长度

qwen3-max

Alibaba

输入tokens/百万

$24

输出tokens/百万

256

上下文长度

wan2.5-i2i-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen-image-edit

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

Doubao-Seed-Translation

Bytedance

$1.2

输入tokens/百万

$3.6

输出tokens/百万

上下文长度

Qwen3-Next-80B-A3B-Instruct

Alibaba

输入tokens/百万

输出tokens/百万

256

上下文长度

wan2.5-t2i-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

wan2.5-t2v-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

wan2.5-i2v-preview

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

qwen3-omni-flash-realtime

Alibaba

$3.9

输入tokens/百万

$15.2

输出tokens/百万

上下文长度

qwen3-tts-flash-realtime

Alibaba

输入tokens/百万

输出tokens/百万

上下文长度

MCP

Voice Recorder (Whisper)

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立服务运行。

python

10.5k

2.5分

Youtube Mcp

YouTube视频分析MCP服务，提供转录提取、内容摘要和AI查询功能

python

13.7k

2.5分

Zntl Mcp Server

一个为Transcripter项目实现的MCP服务器，提供基于AI的转录搜索、摘要生成等功能，支持标准化模型交互协议。

typescript

9.7k

2.5分

Voice Recorder Mcp Server

一个基于Whisper模型的语音录制和转录MCP服务器，可作为Goose AI扩展或独立运行，支持多种录音场景和模型配置。

python

9.6k

2.5分

Fathom Mcp Server

Fathom AI MCP服务器是一个连接Claude与Fathom会议、转录和AI摘要的工具，通过安全的OAuth认证实现数据直传，不存储用户数据。

typescript

7.2k

2.5分

Votars

Votars MCP是一个支持多语言实现的工具，用于与Votars AI平台集成，处理语音转录和AI任务。

10.2k

2.5分

Meeting Mcp

一个提供会议数据管理的MCP服务器，支持会议记录、转录、日历事件管理和搜索功能，可集成AI助手进行自动化会议管理。

typescript

10.9k

2.5分

Chatterboxio Mcp Server

ChatterBox MCP服务器是一个让AI助手能够加入在线会议（Zoom、Google Meet、Teams）、捕获会议转录和录音，并生成会议摘要的模型上下文协议服务。

typescript

2.5分

Ragstack Lambda

RAGStack-Lambda是一个基于AWS Lambda的无服务器AI文档与媒体处理平台，支持上传文档、图片、视频和音频，通过OCR、转录和向量化技术构建知识库，并提供带来源追溯的AI聊天功能。采用按需付费的零闲置成本架构。

typescript

5.5k

2.5分

Chatspatial

ChatSpatial是一个基于自然语言的MCP服务器，用于空间转录组学分析，支持60多种方法，涵盖空间域识别、细胞通讯、轨迹分析等15个类别，可与多种MCP兼容的AI客户端配合使用。

python

5.5k

2.5分

Media Editor

一个基于MCP协议的媒体编辑服务器，提供视频剪辑、音频转录和主题缩略图生成功能，支持与Claude等AI助手集成实现自动化媒体处理。

python

6.6k

2.0分

Mcp Server Whisper

MCP Server Whisper是一个基于OpenAI Whisper和GPT-4o模型的音频处理服务器，提供高级音频转录、格式转换、批量处理和文本转语音等功能，通过Model Context Protocol标准实现与AI助手的无缝交互。

python

11.5k

2.0分

Apple Voice Memo Mcp

这是一个为macOS上的Apple语音备忘录提供程序化访问的MCP服务器，允许AI助手浏览、获取音频和转录语音备忘录。

typescript

5.6k

2.0分

Mcp Transcribe

Transcribe MCP是一个AI驱动的自动化转录工具，支持快速高质量的多语言音频转文字，提供本地和云端服务，并可与多种AI助手集成。

typescript

8.1k

2.0分

Mcp Speaker Diarization

MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术，支持持久化说话人识别（一次注册，永久识别）、双检测器情感分析（结合通用AI与个性化声纹）、实时流处理、REST API和MCP服务器，专为AI智能体集成和爱好项目设计。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图

AI资讯

开发者自建 48 台 Mac mini 集群，破解云 AI 服务高昂成本

谷歌发布首款离线 AI 听写应用 Eloquent：手机秒变专业速录员

算力本地化：Speechify 推出原生 Windows 应用挑战系统级听写

OpenAI 语音 API 大进化：数字转录更精准，代理速度狂飙 40%

AI产品

TicNote Cloud

GreenConvert

EasyScribe

Saveto AI

模型

Grok 4 Fast

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

Qianfan-Lightning

qwen3-max

wan2.5-i2i-preview

qwen-image-edit

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

wan2.5-t2i-preview

wan2.5-t2v-preview

wan2.5-i2v-preview

qwen3-omni-flash-realtime

qwen3-tts-flash-realtime

Qwen2.5 1.5B Instruct Transcript Analytics

Thewhisper Large V3 Turbo

Clinician Note 2.0a

Stt_zh_conformer_transducer_large

Mctct Large

MCP

Voice Recorder (Whisper)

Youtube Mcp

Zntl Mcp Server

Voice Recorder Mcp Server

Fathom Mcp Server

Votars

Meeting Mcp

Chatterboxio Mcp Server

Ragstack Lambda

Chatspatial

Media Editor

Mcp Server Whisper

Apple Voice Memo Mcp

Mcp Transcribe

Mcp Speaker Diarization