探索AI前沿,掌握行业发展趋势
每日精选AI热点,追踪最新行业动态
精准筛选产品,多维度产品调研
热门AI产品实力、热度、年/月/日排行
提交AI产品信息,助力产品推广和用户转化
一站式AI工具指南,快速找到你需要的工具
涵盖各类AI模型,满足你的开发与研究需求
热门AI大模型性能、热度、年/月/日排行
寻找优质模型提供商,获取可靠模型支持
提交模型信息和服务,精准推广和触达用户
多维度对比大模型,找到最适合你的模型
精准计算大模型使用成本,合理规划预算
多模型实时评测,模型输出结果快速比对
聚集热门MCP服务,快速找到适合你的服务
轻松接入MCP客户端,调用强大的AI能力
学习MCP使用技巧,从入门到精通
热门MCP服务性能排行,帮你找到最佳选择
发布你的MCP服务,推广你的MCP服务
自由测试MCP服务,线上快速体验
快速测试MCP服务,快速上线
通过AI搜索优化服务,让品牌在AI中实现霸屏
检测品牌在AI平台中的可见度
一键检测电脑配置,研判运行模型的兼容性
提供用于训练、评估和测试模型的数据集
提供各类文档文字提取,支持自定义场景
发现与 Fidelity Speech Synthesis 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
Pytorch、TensorFlow和JAX框架下最先进的机器学习转换器
仅仅1分钟的语音数据就能训练出一个不错的语音合成模型!(少量样本语音克隆)
OpenAI Whisper 模型的 C/C++ 端口
??:一个用于语音合成的深度学习工具包,经过研究和生产环境的实战检验
一个用于日常对话的生成式语音模型。
只需5秒钟,AI就能克隆你的声音,并实时生成任何你想要的语音内容。
麻省理工学院和MyShell公司研发的即时语音克隆技术,基于音频基础模型。
软VC VITS歌声转换
DeepSpeech是一个开源的嵌入式(离线,设备端)语音转文本引擎,它可以在从树莓派4到高性能GPU服务器等各种设备上实时运行。
最大的机器学习模型即用型数据集中心,提供快速、易用且高效的数据处理工具
WhisperX:带单词级时间戳(和说话人识别)的自动语音识别
落地SAM:融合DINO、Segment Anything、Stable Diffusion和Recognize Anything,实现自动检测、分割和生成任何物体
支持多语言的大型语音生成模型,具备推理、训练和部署的全栈能力。
Leon 是一款开源的个人助理。
一个可扩展的生成式AI框架,专为从事大型语言模型、多模态和语音AI(自动语音识别和文本转语音)研究和开发的科研人员和开发者而设计。
Kaldi语音识别工具的官方项目地址是kaldi-asr/kaldi。
把视频从一种语言翻译成另一种语言,并配上配音。这个过程包括语音识别转录、语音合成和字幕翻译。
最先进的深度学习脚本,按模型分类整理,易于在企业级基础设施上进行训练和部署,并具有可复现的准确性和性能。
适用于Android、iOS、树莓派和服务器的离线语音识别API,支持Python、Java、C#和Node.js。
一个基础的端到端语音识别工具包和开源的SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能。