发现与 Image To Video 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
Stable Diffusion 的网页版界面
适用于GPU云端和本地环境的ComfyUI Docker镜像。包含AI-Dock基础镜像,用于身份验证和提升用户体验。
只需一张照片,即可实时换脸,一键生成深度伪造视频
Upscayl:首屈一指的免费开源AI图像放大软件,支持Linux、MacOS和Windows系统。
GFPGAN致力于开发用于现实人脸修复的实用算法。
这是目前最大规模的PyTorch图像编码器/骨干网络集合,包含训练、评估、推理、导出脚本和预训练权重——涵盖ResNet、ResNeXT、EfficientNet、NFNet、Vision Transformer (ViT)、MobileNetV4、MobileNet-V3 & V2、RegNet、DPN、CSPNet、Swin Transformer、MaxViT、CoAtNet、ConvNeXt等多种网络。
开源免费的替代方案,可替代OpenAI、Claude等。支持本地自托管,无需GPU,可在家用硬件上运行。可直接替换OpenAI,支持gguf、transformers、diffusers等多种模型架构。功能包括:文本、音频、视频、图像生成,语音克隆,分布式和P2P推理。
Real-ESRGAN的目标是开发用于通用图像/视频修复的实用算法。
适用于直播和流媒体的跨平台、可定制机器学习解决方案
你的 AI 第二大脑,可自行托管。从网络或你的文档中获取答案。构建自定义代理,安排自动化任务,进行深度研究。将任何在线或本地大型语言模型 (LLM) 变成你个人的自主 AI(例如 GPT、Claude、Gemini、Llama、Qwen、Mistral)。立即开始 – 免费。
Diffusers:一个基于PyTorch和FLAX的库,包含最先进的扩散模型,用于图像、视频和音频生成。
开箱即用的OCR,支持80多种语言和所有流行的文字系统,包括拉丁文、中文、阿拉伯文、天城文、西里尔文等等。
Invoke 是一个领先的 Stable Diffusion 模型创意引擎,赋能专业人士、艺术家和爱好者使用最新的 AI 技术生成和创作视觉媒体。该方案提供业界领先的 WebUI,并作为多个商业产品的基础。
Qdrant 是一款高性能、大规模的向量数据库和向量搜索引擎,专为下一代人工智能而设计。云端版本也已上线:https://cloud.qdrant.io/
基于PyTorch的图像到图像转换
使用Pytorch实现视觉Transformer,这是一种仅用单个Transformer编码器就能轻松达到图像分类领域最先进水平(SOTA)的简易方法。
2025年计算机视觉与模式识别会议(CVPR 2025)论文及开源项目集锦
落地SAM:融合DINO、Segment Anything、Stable Diffusion和Recognize Anything,实现自动检测、分割和生成任何物体
稳定的扩散模型 WebUI 协作平台
让旧照片重获新生(CVPR 2020 大会口头报告)