探索AI前沿,掌握行业发展趋势
每日精选AI热点,追踪最新行业动态
精准筛选产品,多维度产品调研
热门AI产品实力、热度、年/月/日排行
提交AI产品信息,助力产品推广和用户转化
一站式AI工具指南,快速找到你需要的工具
涵盖各类AI模型,满足你的开发与研究需求
热门AI大模型性能、热度、年/月/日排行
寻找优质模型提供商,获取可靠模型支持
提交模型信息和服务,精准推广和触达用户
多维度对比大模型,找到最适合你的模型
精准计算大模型使用成本,合理规划预算
多模型实时评测,模型输出结果快速比对
聚集热门MCP服务,快速找到适合你的服务
轻松接入MCP客户端,调用强大的AI能力
学习MCP使用技巧,从入门到精通
热门MCP服务性能排行,帮你找到最佳选择
发布你的MCP服务,推广你的MCP服务
自由测试MCP服务,线上快速体验
快速测试MCP服务,快速上线
通过AI搜索优化服务,让品牌在AI中实现霸屏
检测品牌在AI平台中的可见度
一键检测电脑配置,研判运行模型的兼容性
提供用于训练、评估和测试模型的数据集
提供各类文档文字提取,支持自定义场景
发现与 Head Direction 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
CVPR 2023论文《SadTalker:学习用于风格化音频驱动单图像说话人动画的真实3D运动系数》
AudioGPT:理解和生成语音、音乐、声音和会说话的头像
实时互动流媒体数字人
【CVPR 2022】基于薄板样条的图像动画运动模型
一个用于人机交互的计算机视觉库。它利用卷积神经网络实现头部姿态和凝视方向估计,通过反向投影实现肤色检测,以及运动检测、跟踪和显著性地图生成。
基于PyTorch的深度学习头部姿态估计
FantasyTalking:通过一致的动作合成生成逼真的会说话肖像
六自由度头部追踪软件
这个实时语音交互数字人,采用先进的端到端语音方案(GLM-4-Voice - THG)或级联方案(ASR-LLM-TTS-THG),能根据您的需求定制形象和音色,甚至支持音色克隆。无需额外训练,首包延迟仅需3秒。
CVPR2022论文《深度感知生成对抗网络用于说话人头部视频生成》的官方代码
基于扩散模型的肖像和动物动画
基于Transformer、自调节和对抗训练的异常检测(VLDB'22论文)
一步一步完成Llama 3推理过程,掌握核心概念,理解过程推导,并实现代码。
深度伪造技术生成与检测综述
Deep Xi:一种基于TensorFlow 2/Keras实现的深度学习先验信噪比估计方法,用于语音增强和鲁棒性语音识别。
Ditto:用于可控实时说话头像合成的运动空间扩散模型
DAD-3DHeads项目官方仓库:一个用于单图像三维头部对齐的大规模、高精度、多样化数据集(CVPR 2022)。
实时眼动追踪与眨眼估计:自然环境下的应用
ACTalker:一个端到端的视频扩散框架,用于生成会说话的头部视频,支持单一和多信号控制(例如,音频、表情)。