发现与 Offline Transcription 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
你的 AI 第二大脑,可自行托管。从网络或你的文档中获取答案。构建自定义代理,安排自动化任务,进行深度研究。将任何在线或本地大型语言模型 (LLM) 变成你个人的自主 AI(例如 GPT、Claude、Gemini、Llama、Qwen、Mistral)。立即开始 – 免费。
DeepSpeech是一个开源的嵌入式(离线,设备端)语音转文本引擎,它可以在从树莓派4到高性能GPU服务器等各种设备上实时运行。
Leon 是一款开源的个人助理。
适用于Android、iOS、树莓派和服务器的离线语音识别API,支持Python、Java、C#和Node.js。
一个 Python 库,旨在帮助开发者构建具有独立计算机视觉功能的应用程序和系统。
A video translation and dubbing tool powered by LLMs, offering professional-grade translations and one-click full-process deployment. It can generate content optimized for platforms like YouTube,TikTok, and Shorts. 基于AI大模型的视频翻译和配音工具,专业级翻译,一键部署全流程,可以生成适配抖音,小红书,哔哩哔哩,视频号,TikTok,Youtube Shorts等形态的内容
这款视频翻译配音工具基于强大的AI大模型,提供专业级的翻译服务,一键即可完成所有流程。它生成的视频内容,能够完美适配抖音、小红书、哔哩哔哩、视频号、TikTok和YouTube Shorts等各种平台。
人工智能可穿戴设备。戴上它,说话,转录,自动完成。
面向创作者和开发者的 Gradio 可视化界面,集成了关键的文本转语音技术(Edge-TTS、kokoro)和零样本语音克隆功能(E2E、F5-TTS、CosyVoice),并包含 Whisper 音频处理、RVC 变声器、YouTube 下载、UVR5 人声分离以及多语言翻译功能。
开放式决策AI引擎,最全面的强化学习框架
基于PySide6的Whisper语音转录GUI工具
使用网页界面,完全本地化地将任何音频转录成文本,翻译和编辑字幕。由 Whisper 模型驱动!
Rust语言开发的,可即时控制、本地部署的预训练AI模型
Whisper开源语音识别系统优秀资源列表——来自OpenAI
一款用于朗读音频的编辑器,具有自动转录功能
一个离线深度强化学习库
Ollama大型语言模型的完整功能网页界面
高质量的单文件实现,涵盖最先进的离线和离线到在线强化学习算法:AWAC、BC、CQL、DT、EDAC、IQL、SAC-N、TD3+BC、LB-SAC、SPOT、Cal-QL、ReBRAC
这是一款图形界面工具,能够将视频音频转换成字幕,并生成 SRT 文件。无需使用第三方 API,它利用基于 Transformer 的视频字幕生成框架,在本地完成音频转文本的过程。
自托管AI语音转录