谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。
亚马逊正为送货司机开发AI智能眼镜,通过解放双手提升配送效率与安全性。该眼镜集成AI传感、计算机视觉和摄像系统,可实时显示道路危险、任务信息及环境数据,支持包裹扫描、路线导航和送达确认等操作,减少司机对手机的依赖。
苹果公司将在2025年10月檀香山举办的国际计算机视觉大会(ICCV)上展示八篇论文,聚焦多模态模型和视频生成等前沿技术,分享其在计算机视觉领域的最新研究成果。
苹果公司拟收购计算机视觉初创公司Prompt AI的团队与技术,采用"人才与技术"收购方式,旨在快速增强AI能力。Prompt AI成立于2023年,团队仅11人,其产品Seemour可通过家庭摄像头识别人、宠物及物体,并用自然语言描述。
用于理解任意视频中的相机运动的工具。
一个基于深度学习的图像和视频描述模型。
为 Diffusion Transformer 提供高效灵活的控制框架。
高保真可动画 3D 人类重建模型,快速生成动画角色。
mlfoundations
Gelato-30B-A3B 是一款用于GUI计算机使用任务的最先进基础模型,在Click-100k数据集上训练,在多个基准测试中超越了之前的专业计算机基础模型和更大的视觉语言模型。
timm
这是一个基于DINOv3框架的视觉Transformer模型,通过知识蒸馏技术从DINOv3 ViT-7B模型在LVD-1689M数据集上训练得到。该模型专门用于图像特征编码,能够高效提取图像特征表示,适用于各种计算机视觉任务。
这是一个基于DINOv3架构的视觉Transformer模型,采用小型(Small)配置,在LVD-1689M数据集上通过知识蒸馏训练而成。该模型专门用于高效提取图像特征,支持图像分类、特征图提取和图像嵌入等多种计算机视觉任务。
Piero2411
这是一个基于YOLOv8s架构的专门用于条形码和QR码检测的计算机视觉模型。该模型在包含5000多张图像的综合数据集上进行了微调,支持多种条形码类型(如EAN13、Code128等)和QR码的精确检测与分类。
logasanjeev
一个强大的计算机视觉工具,能够对印度身份证文件进行分类、检测和文本提取
onnx-community
这是facebook/dinov2-base模型的ONNX格式版本,适用于计算机视觉任务。
nvidia
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重构Mamba公式增强视觉特征建模效率,在Mamba架构最后几层引入自注意力模块提升长程空间依赖建模能力。
MambaVision是首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重新设计曼巴公式增强视觉特征建模能力,并在曼巴架构最后几层加入自注意力模块提升长距离空间依赖建模能力。
首个结合曼巴(Mamba)与Transformer优势的混合计算机视觉模型,通过重构曼巴公式增强视觉特征建模能力
首个融合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重构曼巴公式增强视觉特征建模效率,并在曼巴架构末端引入自注意力模块提升长程空间依赖建模能力。
ETH-CVG
LightGlue是一个高效的关键点检测和匹配模型,用于计算机视觉中的特征匹配和姿态估计问题。
cortexso
Deepscaler是一款基于DeepScaleR-1.5B-Preview开发的高级AI模型,专注于提升机器学习任务的效率与可扩展性。该模型提供高质量的预测分析和数据处理能力,适用于自然语言处理、计算机视觉等复杂场景,在金融、医疗和娱乐等行业有广泛应用。
AIM-v2是一个高效的图像编码器,基于timm库实现,适用于多种计算机视觉任务。
AIM-v2是一个高效的图像编码器模型,兼容timm框架,适用于计算机视觉任务。
Yuanze
Olympus是一个通用任务路由系统,专为计算机视觉任务设计,能够处理20种不同的视觉任务,并通过任务路由机制实现高效的多任务处理。
atalaydenknalbant
基于YOLO和RT-DETR架构的计算机视觉模型,专门用于通过虎皮鹦鹉蜡膜颜色差异进行性别判定
zai-org
GLM-Edge-V-2B 是一个支持图像文本到文本转换的视觉语言模型,专为边缘计算场景设计,具有50亿参数规模,能够处理图像描述等任务,适用于自然语言处理和计算机视觉的融合应用。
WestlakeNLP
CycleResearcher是基于强化学习与迭代反馈的自动化研究系统,专为机器学习研究训练,涵盖计算机视觉、自然语言处理等领域。
ayjays132
Hugging Face Transformers 是一个提供预训练深度学习模型的库,支持自然语言处理、计算机视觉等多领域任务。
AM-RADIO是NVIDIA研究院开发的视觉基础模型,采用聚合式架构实现多领域统一表征,适用于各类计算机视觉任务。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
展示计算机视觉工具与语言模型通过MCP的集成
YOLO MCP服务是一个强大的计算机视觉服务,通过模型上下文协议(MCP)与Claude AI集成,提供物体检测、分割、分类和实时摄像头分析功能。
基于Ultralytics和MCP协议实现的计算机视觉服务器,支持目标检测、图像分割和姿态估计等功能
MCP Hub是一个用于创建和管理模型上下文协议(MCP)服务器与客户端的框架,集成了UV工具以简化包管理和配置。项目包含AI相关的计算机视觉脚本和数据集处理工具,支持快速部署和开发。