发现与 Speaker Classification 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
??:一个用于语音合成的深度学习工具包,经过研究和生产环境的实战检验
把文字切分成词语,并标注每个词的词性(例如名词、动词);识别出人名、地名、机构名等命名实体;分析句子中词语之间的语法关系;分析句子的结构成分;分析句子中词语之间的语义关系;标注句子中每个成分的语义角色(例如施事者、受事者);解决代词指代不明确的问题;转换文本的写作风格;计算文本间的语义相似度;发现新的词语;提取关键词和短语;自动生成文本摘要;对文本进行分类和聚类;进行中文简繁体转换;以及其他自然语言处理技术。
这是目前最大规模的PyTorch图像编码器/骨干网络集合,包含训练、评估、推理、导出脚本和预训练权重——涵盖ResNet、ResNeXT、EfficientNet、NFNet、Vision Transformer (ViT)、MobileNetV4、MobileNet-V3 & V2、RegNet、DPN、CSPNet、Swin Transformer、MaxViT、CoAtNet、ConvNeXt等多种网络。
Python语言的工业级自然语言处理(NLP)
图像处理的深度学习,包括图像分类、目标检测等。
使用Pytorch实现视觉Transformer,这是一种仅用单个Transformer编码器就能轻松达到图像分类领域最先进水平(SOTA)的简易方法。
一个轻量级的Python人脸识别和面部属性分析库(年龄、性别、情绪和种族)
一个可扩展的生成式AI框架,专为从事大型语言模型、多模态和语音AI(自动语音识别和文本转语音)研究和开发的科研人员和开发者而设计。
这是“基于移位窗口的分层视觉Transformer:Swin Transformer”的官方实现。
Kaldi语音识别工具的官方项目地址是kaldi-asr/kaldi。
使用CVAT,业界领先的机器学习数据引擎,提升标注效率。无论团队规模大小,无论数据量多少,都能信赖CVAT。
适用于Android、iOS、树莓派和服务器的离线语音识别API,支持Python、Java、C#和Node.js。
PyTorch入门教程和趣味项目,涵盖神经对话、神经风格迁移、诗歌创作、动漫生成等内容(《深度学习框架PyTorch:入门与实战》)
极市团队整理的CVPR 2017-2024论文、代码、解读和直播合集
CLIP 的开源实现
简单易用的语音工具包,包含自监督学习模型、具有标点符号的先进/流式语音识别、带文本前端的流式语音合成、说话人识别系统、端到端语音翻译和关键词识别功能。荣获NAACL2022最佳演示奖。
计算机视觉的高级AI可解释性。支持卷积神经网络 (CNN)、视觉Transformer、图像分类、目标检测、图像分割、图像相似度比较等多种任务。
一个基础的端到端语音识别工具包和开源的SOTA预训练模型,支持语音识别、语音活动检测、文本后处理等功能。
基于PyTorch的语音工具包
改进高质量数据集和视觉人工智能模型