发现与 Audio Quality 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
学习如何设计、开发、部署和迭代生产级别的机器学习应用。
开源免费的替代方案,可替代OpenAI、Claude等。支持本地自托管,无需GPU,可在家用硬件上运行。可直接替换OpenAI,支持gguf、transformers、diffusers等多种模型架构。功能包括:文本、音频、视频、图像生成,语音克隆,分布式和P2P推理。
只需不到10分钟的语音数据,就能轻松训练出一个优秀的语音转换模型!
适用于直播和流媒体的跨平台、可定制机器学习解决方案
公司分享其在生产环境中数据科学和机器学习工作的论文和技术博客。
软VC VITS歌声转换
Deezer 声源分离库,包含预训练模型。
基于深度神经网络的声乐去除器图形用户界面
支持多语言的大型语音生成模型,具备推理、训练和部署的全栈能力。
CVPR 2023论文《SadTalker:学习用于风格化音频驱动单图像说话人动画的真实3D运动系数》
一个基础的端到端语音识别工具包和开源的SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能。
用于处理杂乱的真实世界数据和标签,进行数据质量提升和机器学习的标准数据中心人工智能套件。
基于PyTorch的语音工具包
AudioGPT:理解和生成语音、音乐、声音和会说话的头像
改进高质量数据集和视觉人工智能模型
Amphion(/ˈæmfiən/)是一个用于音频、音乐和语音生成的工具包。其目的是支持可重复的研究,并帮助初级研究人员和工程师入门音频、音乐和语音生成的研究与开发领域。
使用参数高效微调 (PEFT) 或全参数微调方法,对450多个大型语言模型 (LLM)(如 Qwen2.5、InternLM3、GLM4、Llama3.3、Mistral、Yi1.5、Baichuan2、DeepSeek-R1 等)和150多个多模态大型语言模型 (MLLM)(如 Qwen2.5-VL、Qwen2-Audio、Llama3.2-Vision、Llava、InternVL2.5、MiniCPM-V-2.6、GLM4v、Xcomposer2.5、Yi-VL、DeepSeek-VL2、Phi3.5-Vision、GOT-OCR2 等)进行微调。
一个支持多种引擎和API(在线和离线)的Python语音识别模块。
论文《Jukebox:一种用于音乐生成的模型》的代码
The world’s first real-time, distributed, cloud-edge collaborative multimodal AI Agent Framework that simultaneously supports C/C++/Go/Python/JS/TS