发现与 Video Restoration 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
只需一张照片,即可实时换脸,一键生成深度伪造视频
GFPGAN致力于开发用于现实人脸修复的实用算法。
Real-ESRGAN的目标是开发用于通用图像/视频修复的实用算法。
适用于直播和流媒体的跨平台、可定制机器学习解决方案
Diffusers:一个基于PyTorch和FLAX的库,包含最先进的扩散模型,用于图像、视频和音频生成。
【NeurIPS 2022】基于码本查找转换器的鲁棒盲人脸恢复方法
稳定的扩散模型 WebUI 协作平台
让旧照片重获新生(CVPR 2020 大会口头报告)
视频、图片和GIF的超分辨率放大(超清重建)以及视频帧率插值。技术基于Waifu2x、Real-ESRGAN、Real-CUGAN、RTX Video Super Resolution VSR、SRMD、RealSR、Anime4K、RIFE、IFRNet、CAIN、DAIN和ACNet等算法。
只需一键,AI就能自动完成Netflix级别的视频字幕制作,包括分割、翻译、校对和配音等所有步骤,就像一个全自动的字幕团队。
使用CVAT,业界领先的机器学习数据引擎,提升标注效率。无论团队规模大小,无论数据量多少,都能信赖CVAT。
一个基于机器学习的视频超分辨率和帧插值框架,创作于2018年黑客谷II活动期间。
把视频从一种语言翻译成另一种语言,并配上配音。这个过程包括语音识别转录、语音合成和字幕翻译。
简单易用的语音工具包,包含自监督学习模型、具有标点符号的先进/流式语音识别、带文本前端的流式语音合成、说话人识别系统、端到端语音翻译和关键词识别功能。荣获NAACL2022最佳演示奖。
文本和图像到视频生成:CogVideoX(2024)和CogVideo(ICLR 2023)
一个易于使用的图像分割库,拥有强大的预训练模型库,支持语义分割、交互式分割、全景分割、图像抠图、3D分割等多种实际应用任务。
一个 Python 库,旨在帮助开发者构建具有独立计算机视觉功能的应用程序和系统。
CVPR 2024录用(口头报告)InternVL家族:GPT-4o的开创性开源替代方案,性能逼近GPT-4o的多模态对话模型
TensorRT 和 NVIDIA Jetson 深度学习推理网络及深度视觉原语部署指南
使用Pytorch实现谷歌的文本转图像神经网络Imagen