玩美移动升级时尚API,新增手表、手链等九类虚拟试穿功能,利用生成式AI和计算机视觉技术,精准识别人体结构,为品牌和开发者提供全面的AI穿搭体验,推动时尚行业发展。
VideoPipe是一款开源视频分析框架,专注于计算机视觉AI算法的快速集成与落地。其核心创新在于采用可组合的管线设计,将复杂任务模块化,帮助开发者简化底层编码,聚焦业务逻辑,提升开发效率。
谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。
亚马逊正为送货司机开发AI智能眼镜,通过解放双手提升配送效率与安全性。该眼镜集成AI传感、计算机视觉和摄像系统,可实时显示道路危险、任务信息及环境数据,支持包裹扫描、路线导航和送达确认等操作,减少司机对手机的依赖。
多模态重排序模型,支持文本、图像、视频等输入。
轻量级布局到图像生成框架,实现精准空间控制。
用于理解任意视频中的相机运动的工具。
一个基于深度学习的图像和视频描述模型。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
rujutashashikanjoshi
这是一个基于YOLOv12 Medium架构,在自定义数据集上微调的目标检测模型。该模型专门用于高效、准确地检测图像或视频中的无人机目标,为计算机视觉应用提供支持。
mlfoundations
Gelato-30B-A3B 是一款用于GUI计算机使用任务的最先进基础模型,在Click-100k数据集上训练,在多个基准测试中超越了之前的专业计算机基础模型和更大的视觉语言模型。
xlangai
OpenCUA是一个端到端的计算机使用基础模型系列,基于Qwen2.5-VL指令模型构建,能够在计算机环境中产生可执行的操作。它具备强大的视觉定位和多步骤任务规划能力,在OSWorld等计算机使用代理基准测试中表现出色。
timm
这是一个基于DINOv3框架的视觉Transformer模型,通过知识蒸馏技术从DINOv3 ViT-7B模型在LVD-1689M数据集上训练得到。该模型专门用于图像特征编码,能够高效提取图像特征表示,适用于各种计算机视觉任务。
这是一个基于DINOv3架构的视觉Transformer模型,采用小型(Small)配置,在LVD-1689M数据集上通过知识蒸馏训练而成。该模型专门用于高效提取图像特征,支持图像分类、特征图提取和图像嵌入等多种计算机视觉任务。
Piero2411
这是一个基于YOLOv8s架构的专门用于条形码和QR码检测的计算机视觉模型。该模型在包含5000多张图像的综合数据集上进行了微调,支持多种条形码类型(如EAN13、Code128等)和QR码的精确检测与分类。
macpaw-research
这是基于Ultralytics/YOLO11微调的计算机视觉模型,专门用于检测macOS应用程序截图中的UI元素,是Screen2AX项目的一部分,致力于利用计算机视觉技术生成无障碍元数据。
logasanjeev
一个强大的计算机视觉工具,能够对印度身份证文件进行分类、检测和文本提取
onnx-community
这是facebook/dinov2-base模型的ONNX格式版本,适用于计算机视觉任务。
nvidia
首个结合Mamba与Transformer优势的计算机视觉混合模型,通过重构Mamba公式增强视觉特征建模效率,在Mamba架构最后几层引入自注意力模块提升长程空间依赖建模能力。
MambaVision是首个结合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重新设计曼巴公式增强视觉特征建模能力,并在曼巴架构最后几层加入自注意力模块提升长距离空间依赖建模能力。
首个结合曼巴(Mamba)与Transformer优势的混合计算机视觉模型,通过重构曼巴公式增强视觉特征建模能力
首个融合曼巴(Mamba)与Transformer优势的计算机视觉混合模型,通过重构曼巴公式增强视觉特征建模效率,并在曼巴架构末端引入自注意力模块提升长程空间依赖建模能力。
ETH-CVG
LightGlue是一个高效的关键点检测和匹配模型,用于计算机视觉中的特征匹配和姿态估计问题。
cortexso
Deepscaler是一款基于DeepScaleR-1.5B-Preview开发的高级AI模型,专注于提升机器学习任务的效率与可扩展性。该模型提供高质量的预测分析和数据处理能力,适用于自然语言处理、计算机视觉等复杂场景,在金融、医疗和娱乐等行业有广泛应用。
AIM-v2是一个高效的图像编码器,基于timm库实现,适用于多种计算机视觉任务。
AIM-v2是一个高效的图像编码器模型,兼容timm框架,适用于计算机视觉任务。
Yuanze
Olympus是一个通用任务路由系统,专为计算机视觉任务设计,能够处理20种不同的视觉任务,并通过任务路由机制实现高效的多任务处理。
atalaydenknalbant
基于YOLO和RT-DETR架构的计算机视觉模型,专门用于通过虎皮鹦鹉蜡膜颜色差异进行性别判定
zai-org
GLM-Edge-V-2B 是一个支持图像文本到文本转换的视觉语言模型,专为边缘计算场景设计,具有50亿参数规模,能够处理图像描述等任务,适用于自然语言处理和计算机视觉的融合应用。
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Android-MCP是一个轻量级开源项目,作为AI代理与Android设备之间的桥梁,通过MCP服务器实现真实任务操作如应用导航、UI交互和自动化测试,无需依赖传统计算机视觉或预设脚本。
展示计算机视觉工具与语言模型通过MCP的集成
YOLO MCP服务是一个强大的计算机视觉服务,通过模型上下文协议(MCP)与Claude AI集成,提供物体检测、分割、分类和实时摄像头分析功能。
基于Ultralytics和MCP协议实现的计算机视觉服务器,支持目标检测、图像分割和姿态估计等功能
MCP Hub是一个用于创建和管理模型上下文协议(MCP)服务器与客户端的框架,集成了UV工具以简化包管理和配置。项目包含AI相关的计算机视觉脚本和数据集处理工具,支持快速部署和开发。
一个基于计算机视觉的MCP服务器,通过分析网页截图自动识别图像资产位置并提取布局结构,支持径向、网格等多种布局模式检测,帮助AI助手精确重建网页布局。
这是一个FiftyOne MCP服务器项目,允许用户通过AI助手(如ChatGPT和Claude)使用自然语言来探索和管理计算机视觉数据集。它提供了数据集管理、操作执行、插件安装和会话控制等功能,将FiftyOne的80多个内置操作符和插件生态系统暴露给AI工具。