发现与 Computer Vision 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
《动手学深度学习》是一本面向中文读者的实用型深度学习教材,提供可运行的代码和丰富的讨论内容。它已被全球70多个国家、500多所大学采用,作为深度学习课程的教材。
12周,24节课,人人皆可学AI!
这是目前最大规模的PyTorch图像编码器/骨干网络集合,包含训练、评估、推理、导出脚本和预训练权重——涵盖ResNet、ResNeXT、EfficientNet、NFNet、Vision Transformer (ViT)、MobileNetV4、MobileNet-V3 & V2、RegNet、DPN、CSPNet、Swin Transformer、MaxViT、CoAtNet、ConvNeXt等多种网络。
Caffe:一个快速、开源的深度学习框架。
OpenPose:一个实时多人关键点检测库,可用于人体、面部、手部和脚部姿态估计。
一个用C++实现的各种数学、机器学习、计算机科学和物理算法的集合,用于教育目的。
开放式MMLab目标检测工具箱和基准测试
适用于直播和流媒体的跨平台、可定制机器学习解决方案
增强版ChatGPT克隆:集成了Agents(智能体)、DeepSeek(深度搜索)、Anthropic、AWS、OpenAI、Assistants API、Azure、Groq、o1、GPT-4o、Mistral、OpenRouter、Vertex AI、Gemini、Artifacts(模型制品)、AI模型切换、消息搜索、代码解释器、Langchain、DALL-E 3、OpenAPI Actions、函数功能、安全多用户认证、预设以及开源自托管功能。项目正在积极开发中。
公司分享其在生产环境中数据科学和机器学习工作的论文和技术博客。
一本互动式深度学习教材,包含多框架代码、数学公式和深入讨论。已被全球70多个国家的500多所大学采用,包括斯坦福大学、麻省理工学院、哈佛大学和剑桥大学。
500个AI、机器学习、深度学习、计算机视觉和自然语言处理项目(含代码)
基于PyTorch的图像到图像转换
使用Pytorch实现视觉Transformer,这是一种仅用单个Transformer编码器就能轻松达到图像分类领域最先进水平(SOTA)的简易方法。
在NeurIPS 2023大会上以口头报告形式发表的视觉指令微调(LLaVA)模型,其能力已达到甚至超越了GPT-4V的水平。
2025年计算机视觉与模式识别会议(CVPR 2025)论文及开源项目集锦
一个用C语言实现的各种算法集合,涵盖数学、机器学习、计算机科学、物理学等领域,旨在用于教育目的。
最大的机器学习模型即用型数据集中心,提供快速、易用且高效的数据处理工具
这个项目把《动手学深度学习》一书中原本用MXNet框架写的代码,改成了用PyTorch框架实现的版本。
微软人工智能与研究部门基于虚幻引擎/Unity开发的开源自动驾驶车辆模拟器