IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
苹果发布LiTo模型,仅凭单张2D图像即可重建高精度3D对象,解决了光影一致性难题,实现物理级真实感,有望颠覆3D重建领域。
谷歌为Gemini 3 Flash模型推出“Agentic Vision”功能,突破传统AI视觉模型“单次猜测”局限。该功能使AI能主动探索图像细节,通过深度推理分析复杂内容,如远处路牌、电路图或微小文字,有效解决以往因一次性全局处理导致的细节丢失问题,实现更接近人类专家的图像理解能力。
微软11月29日向Windows 11 Copilot用户推送更新:免费开放GPT-5.1模型,一键启用原付费“Think Deeper”深度推理功能。新增“Labs”实验区,首批上线WinUI 3“Vision”实时画面解析组件,后续将逐步加入3D生成、音频表达等功能。“Actions”特性正在内测中。
Aya Vision 32B 是一个支持多语言的视觉语言模型,适用于OCR、图像描述、视觉推理等多种用途。
Aya Vision 是 Cohere 推出的多语言多模态视觉模型,旨在提升多语言场景下的视觉和文本理解能力。
VisionAgent是一个用于生成代码以解决视觉任务的库,支持多种LLM提供商。
Vision Arena是一个面向计算机视觉领域的开源模型测试平台
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
mitegvg
该模型是基于VideoMAE架构的暴力检测模型,在Kinetics数据集预训练的基础上,针对暴力检测任务进行了92轮微调。模型采用Vision Transformer架构,专门用于视频内容分析,能够识别视频中的暴力行为。
birder-project
这是一个基于RoPE(旋转位置编码)的Vision Transformer模型,参数规模为150M,采用14x14的patch大小。该模型在约2100万张图像的多样化数据集上进行了预训练,可作为通用视觉特征提取器使用。
timm
这是一个基于DINOv3架构的Vision Transformer图像特征编码器,通过从7B参数的DINOv3 ViT模型在LVD-1689M数据集上进行知识蒸馏得到。该模型专门用于图像特征提取任务,具有强大的视觉表示能力。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的视觉语言模型,专注于光学字符识别(OCR)和文档分析。该模型采用GGUF格式,支持多语言处理,具备出色的OCR精度和推理速度,适用于各种文档处理场景。
John6666
Realistic Vision V5.1 是一个基于 Stable Diffusion XL 的文本到图像生成模型,专注于生成高质量、逼真的人物肖像和场景图像。该模型支持多种风格,包括写实、动漫、游戏等,能够生成具有高度真实感的人物、女演员肖像以及动漫风格图像。
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
CohereLabs
Cohere Labs Command A Vision是一个拥有1120亿参数的企业级视觉语言模型,专为图像理解任务优化,在保持高性能的同时具有较低的计算需求。该模型支持多语言输入和输出,能够处理图像和文本的多模态输入。
Acly
BiRefNet是一个用于二分类图像分割的深度学习模型,专门用于背景去除任务。该模型经过GGUF格式转换,可在消费级硬件上通过vision.cpp进行轻量级推理,实现高效的图像分割处理。
Ricky06662
VisionReasoner-7B是一个图像文本到文本的模型,采用解耦架构,由推理模型和分割模型组成,能解读用户意图并生成像素级掩码。
p1atdev
基于Vision Transformer架构的视觉模型,采用SigLIP(Sigmoid Loss for Language-Image Pretraining)训练方法,适用于图像理解任务。
ISxOdin
基于Google Vision Transformer (ViT)微调的宠物品种分类模型,在Oxford-IIIT宠物数据集上达到94.45%准确率
UCSC-VLAA
VLAA-Thinker是一个创新的视觉语言模型,能够同时处理图像和文本输入,并生成高质量的文本输出。该模型基于论文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果开发,专注于类似R1的推理能力。
tue-mps
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,展示了ViT在图像分割任务中的潜力。
该论文提出了一种将Vision Transformer (ViT) 重新解释为图像分割模型的方法,揭示了ViT在图像分割任务中的潜力。
该论文提出了一种基于Vision Transformer (ViT) 的图像分割模型,揭示了ViT在图像分割任务中的潜力。
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定架构调整使其适用于分割任务。
该论文提出的模型揭示了Vision Transformer (ViT)在图像分割任务中的潜在能力。
该论文提出了一种新的视角,将Vision Transformer (ViT) 视为图像分割模型,并探讨了其在图像分割任务中的潜力。
该模型揭示了Vision Transformer (ViT) 在图像分割任务中的潜力,通过特定方法将ViT转化为高效的图像分割模型。