发现与 Head Direction 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
CVPR 2023论文《SadTalker:学习用于风格化音频驱动单图像说话人动画的真实3D运动系数》
AudioGPT:理解和生成语音、音乐、声音和会说话的头像
实时互动流媒体数字人
【CVPR 2022】基于薄板样条的图像动画运动模型
一个用于人机交互的计算机视觉库。它利用卷积神经网络实现头部姿态和凝视方向估计,通过反向投影实现肤色检测,以及运动检测、跟踪和显著性地图生成。
基于PyTorch的深度学习头部姿态估计
FantasyTalking:通过一致的动作合成生成逼真的会说话肖像
六自由度头部追踪软件
这个实时语音交互数字人,采用先进的端到端语音方案(GLM-4-Voice - THG)或级联方案(ASR-LLM-TTS-THG),能根据您的需求定制形象和音色,甚至支持音色克隆。无需额外训练,首包延迟仅需3秒。
CVPR2022论文《深度感知生成对抗网络用于说话人头部视频生成》的官方代码
基于扩散模型的肖像和动物动画
基于Transformer、自调节和对抗训练的异常检测(VLDB'22论文)
一步一步完成Llama 3推理过程,掌握核心概念,理解过程推导,并实现代码。
深度伪造技术生成与检测综述
Deep Xi:一种基于TensorFlow 2/Keras实现的深度学习先验信噪比估计方法,用于语音增强和鲁棒性语音识别。
DAD-3DHeads项目官方仓库:一个用于单图像三维头部对齐的大规模、高精度、多样化数据集(CVPR 2022)。
Ditto:用于可控实时说话头像合成的运动空间扩散模型
实时眼动追踪与眨眼估计:自然环境下的应用
3DV 2021:基于三维形变模型和三维地标点的高精度三维人脸几何重建