发现与 Asr Js 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
基于 TensorFlow.js 的浏览器和 Node.js 人脸检测与识别 JavaScript API
WhisperX:带单词级时间戳(和说话人识别)的自动语音识别
一个可扩展的生成式AI框架,专为从事大型语言模型、多模态和语音AI(自动语音识别和文本转语音)研究和开发的科研人员和开发者而设计。
Kaldi语音识别工具的官方项目地址是kaldi-asr/kaldi。
适用于Android、iOS、树莓派和服务器的离线语音识别API,支持Python、Java、C#和Node.js。
简单易用的语音工具包,包含自监督学习模型、具有标点符号的先进/流式语音识别、带文本前端的流式语音合成、说话人识别系统、端到端语音翻译和关键词识别功能。荣获NAACL2022最佳演示奖。
基于PyTorch的语音工具包
一场激动人心的编程与人工智能游戏
使用 TensorFlow.js 在客户端进行 NSFW(不安全内容)检测
The world’s first real-time, distributed, cloud-edge collaborative multimodal AI Agent Framework that simultaneously supports C/C++/Go/Python/JS/TS
悟空机器人是一个简单易用、功能灵活、设计优雅的中文语音对话机器人/智能音箱项目。它支持与ChatGPT进行多轮对话,并且可能是首个支持脑机交互的开源智能音箱项目。
离线语音识别、语音合成、说话人分隔、语音增强和语音活动检测,基于下一代Kaldi和ONNX Runtime实现,无需网络连接。支持嵌入式系统、Android、iOS、鸿蒙OS、树莓派、RISC-V、x86_64服务器以及WebSocket服务器/客户端,并支持11种编程语言。
让机器学习更亲切易用,就在网络上!
多语言语音理解模型
一款高度可扩展的 Markdown 编辑器,具有版本控制、AI 辅助编程、思维导图、文档加密、代码片段运行、集成终端、图表嵌入、HTML 小程序、Reveal.js 演示文稿、插件和宏替换等功能。
Silero模型:提供预训练的语音转文本、文本转语音和文本增强模型,使用极其简单。
基于OpenAI Whisper的带说话人分段的自动语音识别
端到端语音识别工具包:首发版及生产就绪版
Nexa SDK是一个全面的工具包,支持GGML和ONNX模型。它支持文本生成、图像生成、视觉语言模型(VLM)、音频语言模型、自动语音识别(ASR)和文本转语音(TTS)功能。
Ollama JavaScript 库