微软11月29日向Windows 11 Copilot用户推送更新:免费开放GPT-5.1模型,一键启用原付费“Think Deeper”深度推理功能。新增“Labs”实验区,首批上线WinUI 3“Vision”实时画面解析组件,后续将逐步加入3D生成、音频表达等功能。“Actions”特性正在内测中。
三星推出首款混合现实头显Galaxy XR,售价1799美元,仅为苹果Vision Pro一半。搭载双Micro OLED屏,总像素2900万,基于开放安卓XR平台,以高性价比挑战高端MR市场。
苹果正研发轻便智能眼镜,采用双界面设计,可能运行visionOS系统,界面会根据配对设备调整。这印证了资源从Vision Pro转向更便携产品的传闻。
视觉检索增强生成(Vision-RAG)与文本检索增强生成(Text-RAG)在企业信息检索中的对比研究显示,Text-RAG需先将PDF转为文本再嵌入索引,但OCR技术常导致转换不准确,影响检索效率。Vision-RAG则直接处理视觉信息,可能更高效。研究揭示了两种方法在应对海量文档时的优缺点,为企业优化搜索策略提供参考。
Decart Vision平台利用AI实现图像、视频生成与编辑,无需等待创意产出。
VisionFX是一款AI创意工作室,利用先进的人工智能技术即时生成图片、视频、音乐、语音等。
将2D图像转换为沉浸式3D模型,用于游戏资产和电子商务产品。
Portal by 20Vision是一个免费AI设计工具,可在几秒钟内转换图像和视频。
Bytedance
$0.8
输入tokens/百万
$8
输出tokens/百万
256
上下文长度
Tencent
-
24
$3
$9
128
16
$1.5
$4.5
32
$18
6
Moonshot
$10
$30
131
$5
$20
$2
8
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
birder-project
这是一个基于RoPE(旋转位置编码)的Vision Transformer模型,参数规模为150M,采用14x14的patch大小。该模型在约2100万张图像的多样化数据集上进行了预训练,可作为通用视觉特征提取器使用。
timm
这是一个基于DINOv3架构的Vision Transformer图像特征编码器,通过从7B参数的DINOv3 ViT模型在LVD-1689M数据集上进行知识蒸馏得到。该模型专门用于图像特征提取任务,具有强大的视觉表示能力。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的视觉语言模型,专注于光学字符识别(OCR)和文档分析。该模型采用GGUF格式,支持多语言处理,具备出色的OCR精度和推理速度,适用于各种文档处理场景。
John6666
Realistic Vision V5.1 是一个基于 Stable Diffusion XL 的文本到图像生成模型,专注于生成高质量、逼真的人物肖像和场景图像。该模型支持多种风格,包括写实、动漫、游戏等,能够生成具有高度真实感的人物、女演员肖像以及动漫风格图像。
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
CohereLabs
Cohere Labs Command A Vision是一个拥有1120亿参数的企业级视觉语言模型,专为图像理解任务优化,在保持高性能的同时具有较低的计算需求。该模型支持多语言输入和输出,能够处理图像和文本的多模态输入。
Acly
BiRefNet是一个用于二分类图像分割的深度学习模型,专门用于背景去除任务。该模型经过GGUF格式转换,可在消费级硬件上通过vision.cpp进行轻量级推理,实现高效的图像分割处理。
prithivMLmods
基于Qwen2.5-VL-3B-Instruct微调的视觉OCR模型,专注于文档级OCR、长上下文视觉语言理解和数学LaTeX格式转换
Ricky06662
VisionReasoner是基于强化学习的统一视觉感知与推理模型,通过强化学习框架将视觉感知和推理任务整合到一个统一的系统中,为视觉领域的复杂任务提供了创新的解决方案。
VisionReasoner-7B是一个图像文本到文本的模型,采用解耦架构,由推理模型和分割模型组成,能解读用户意图并生成像素级掩码。
p1atdev
基于Vision Transformer架构的视觉模型,采用SigLIP(Sigmoid Loss for Language-Image Pretraining)训练方法,适用于图像理解任务。
ISxOdin
基于Google Vision Transformer (ViT)微调的宠物品种分类模型,在Oxford-IIIT宠物数据集上达到94.45%准确率
UCSC-VLAA
VLAA-Thinker是一个创新的视觉语言模型,能够同时处理图像和文本输入,并生成高质量的文本输出。该模型基于论文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果开发,专注于类似R1的推理能力。
tue-mps
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,揭示了ViT在图像分割任务中的潜力。
该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型,揭示了ViT在图像分割任务中的潜力。
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
该论文提出的模型揭示了Vision Transformer (ViT)在图像分割任务中的潜在能力。
展示计算机视觉工具与语言模型通过MCP的集成
MCP Vision Relay 是一个 MCP 服务器,通过封装本地安装的 Gemini 和 Qwen 命令行工具,为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力,使其能够处理本地路径、URL 或 base64 编码的图片。
YOLO MCP服务是一个强大的计算机视觉服务,通过模型上下文协议(MCP)与Claude AI集成,提供物体检测、分割、分类和实时摄像头分析功能。
基于Google Gemini Vision API的YouTube视频分析MCP服务,提供视频描述、摘要、问答和关键片段提取功能。
Orion Vision MCP服务器是一个基于Model Context Protocol(MCP)的开源项目,提供与Azure文档智能服务的无缝集成,支持多种文档类型的分析和数据提取功能。
专为AI视觉工作流优化的网页截图工具,自动分块为1072x1072像素以适应Claude Vision API处理需求