OpenAI发布ChatGPT Images2.0,基于GPT Image2模型,核心亮点是增强AI的“思考能力”,使其更像具备逻辑的创作者。新版本引入推理规划功能,生成图像前会进行联网信息检索和逻辑分析,改变了以往“开盲盒”式的生图模式,提升了复杂视觉任务的处理能力。
苹果iOS27系统将大幅升级Apple Intelligence,重点增强“视觉智能”功能。新系统不仅适用于手机,还将拓展至智能眼镜和带摄像头的AirPods等穿戴设备,旨在提升设备对现实世界的感知能力。通过先进的视觉识别技术,帮助用户更高效地处理物理世界中的图文信息。
智谱发布多模态编程模型GLM-5V-Turbo,具备视觉理解能力,可将设计稿、网页界面等视觉信息转化为代码,实现AI Agent从字符到视觉的感知延伸。
IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
一款领先的AI信息图表生成器,只需一键即可将创意转化为专业视觉图表。
AI辅助的视觉UI开发工具,通过精确的DOM信息和自然语言描述帮助AI准确理解您的UI修改意图。
一款用于生成信息图表的视觉文本渲染工具。
视觉AI助手,提供视频信息识别与交流
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$2
$20
-
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
$0.8
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
mlx-community
DeepSeek-OCR-6bit是基于DeepSeek-OCR模型转换的MLX格式版本,专门针对苹果芯片优化。这是一个视觉语言模型,具备强大的光学字符识别能力,能够从图像中提取和识别文本信息。
sabaridsnfuji
日本收据视觉语言模型lfm2-450M是一款专门用于理解和处理日本收据的视觉语言模型。它基于LiquidAI的LFM2-VL-450M基础模型构建,能够分析收据图像,提取结构化信息,回答关于收据内容的问题,并以日语和英语提供详细描述。
ekacare
专为印度医疗保健环境设计的视觉大语言模型,专门处理医疗记录相关任务,包括检验报告解析、电子处方解析、文档分类和个人身份信息提取。
deepseek-community
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
AntResearchNLP
ViLaSR-7B是基于Qwen2.5-VL-7B-Instruct构建的视觉语言模型,专门用于增强空间推理能力。通过交织思维和视觉绘图的方法,该模型在图像文本到文本转换任务中表现出色,能够更好地理解和处理空间关系信息。
ChenShawn
DeepEyes是一个通过强化学习激励'以图思考'的视觉语言模型,能够将视觉信息直接融入推理链,在图像文本处理任务中表现出色。
zackriya
一个专注于从图像中提取结构化数据(JSON)的视觉语言模型,特别擅长识别图表中的节点、边及其子属性,将视觉信息表示为知识图谱。
unsloth
granite-vision-3.2-2b是一款紧凑高效的视觉语言模型,专为视觉文档理解设计,能够从表格、图表、信息图等中自动提取内容。
AJNG
一款视觉语言模型,专门用于从支票图像中提取结构化的金融信息,生成包含支票号码、收款人、金额和签发日期等关键信息的JSON格式输出。
StevenHH2000
Finedefics 是一个开源的多模态大语言模型(MLLM),通过融入对象的信息化属性描述,增强了细粒度视觉识别(FGVR)能力。
zai-org
Glm-Edge-V-5B-GGUF 是一款支持图像文本转换为文本的多模态模型,支持中英双语处理,能够高效准确地将视觉信息转换为文本描述。
AI4Chem
ChemVLM-8B是一个80亿参数的多模态大语言模型,专为化学领域设计,能够处理文本和视觉化学信息。
openbmb
VisRAG是基于视觉语言模型(VLM)的检索增强生成(RAG)系统,可直接将文档作为图像进行嵌入表征,避免传统文本解析导致的信息损耗。
onnx-community
DepthPro 是一个用于深度估计的视觉模型,能够从单张图像预测场景的深度信息。
nvidia
RADIO是由NVIDIA研究院开发的视觉基础模型,能够将不同领域的视觉信息统一表征,适用于多种视觉任务。
ahmed-masry
ChartGemma是基于PaliGemma构建的图表理解与推理模型,通过视觉指令微调直接处理图表图像,捕捉视觉趋势和底层信息。
ishaangupta293
Kosmos-2是一个多模态大语言模型,能够将视觉信息与语言理解相结合,实现图像到文本的转换和视觉定位任务。
TeeA
ChartQA 是一个视觉问答模型,专注于从图表中提取信息并回答相关问题,支持越南语。
ChartQA 是一个视觉问答模型,专注于从图表中提取信息并回答相关问题。
一个通过adb操作安卓设备的MCP服务,支持应用管理、屏幕控制、输入手势和设备信息获取等功能,并可集成视觉模型进行屏幕内容分析。
Glasses MCP是一个为AI助手提供网页视觉能力的工具,允许AI通过截图获取网页的视觉信息,支持多种设备和格式。