OpenAI发布ChatGPT Images2.0,基于GPT Image2模型,核心亮点是增强AI的“思考能力”,使其更像具备逻辑的创作者。新版本引入推理规划功能,生成图像前会进行联网信息检索和逻辑分析,改变了以往“开盲盒”式的生图模式,提升了复杂视觉任务的处理能力。
苹果iOS27系统将大幅升级Apple Intelligence,重点增强“视觉智能”功能。新系统不仅适用于手机,还将拓展至智能眼镜和带摄像头的AirPods等穿戴设备,旨在提升设备对现实世界的感知能力。通过先进的视觉识别技术,帮助用户更高效地处理物理世界中的图文信息。
小米18 Pro曝光信息显示,其背部设计延续三摄与副屏方案,但渲染图仅为早期版本。新增专用AI按键成为另一看点。
谷歌AI助手Gemini推出交互式图像生成功能,基于Nano Banana技术,可将复杂主题转化为动态交互模拟。用户通过“向我展示”等指令触发可视化图表按钮,系统即生成可操作数字模拟程序,信息承载力强,例如能演示月球相关动态过程。
一款领先的AI信息图表生成器,只需一键即可将创意转化为专业视觉图表。
多模态信息检索与重排序模型,支持文本、图像、视频等输入。
AI 驱动的图表生成器,快速将想法转化为清晰的图表和信息图。
Nanobanana Pro:AI图像生成器,文本渲染完美,可生成数学解和信息图。
Google
$0.7
Input tokens/M
$2.8
Output tokens/M
1k
Context Length
Anthropic
$21
$105
200
Alibaba
-
$1
$10
256
$2
$20
$3.9
$15.2
64
Bytedance
$0.8
$0.15
$1.5
128
Baidu
32
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
onnx-community
SAM3是基于概念的任意分割模型,能够根据输入的点、框等提示信息生成精确的图像分割掩码。该版本是ONNX格式的SAM3跟踪器模型,通过Transformers.js库可在浏览器环境中高效运行。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
mlx-community
DeepSeek-OCR-6bit是基于DeepSeek-OCR模型转换的MLX格式版本,专门针对苹果芯片优化。这是一个视觉语言模型,具备强大的光学字符识别能力,能够从图像中提取和识别文本信息。
datalab-to
Chandra是一款先进的OCR模型,能够从图像和PDF中高精度提取文本并保留布局信息。它支持Markdown、HTML和JSON格式输出,在手写体识别、表单重构、表格处理等方面表现出色,支持40多种语言。
Armaggheddon
基于YOLOv11架构的三款文档布局分析模型(nano、small、medium),在DocLayNet数据集上微调,能够精准检测文档中的文本、表格、图表等11种布局元素,适用于文档理解和信息提取任务。
numind
NuExtract 2.0是由NuMind开发的专门用于结构化信息提取的多模态模型,支持文本和图像输入,具备多语言处理能力,能够根据JSON模板从输入内容中提取结构化信息。
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
manycore-research
SpatialGen是一个利用多视图、多模态扩散模型,从语义布局中生成多视图、多模态信息的项目。它能实现图像到场景以及文本到场景的转换,为相关领域的研究和应用提供了有力支持。
sabaridsnfuji
日本收据视觉语言模型lfm2-450M是一款专门用于理解和处理日本收据的视觉语言模型。它基于LiquidAI的LFM2-VL-450M基础模型构建,能够分析收据图像,提取结构化信息,回答关于收据内容的问题,并以日语和英语提供详细描述。
NexaAI
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
deepseek-community
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
Mungert
Qwen2.5-Omni-7B是一款功能强大的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式生成文本和自然语音响应。
Qwen2.5-Omni-3B GGUF是一个多功能的多模态模型,能够处理文本、图像、音频和视频等多种数据,提供高效准确的信息处理和响应。
lingshu-medical-mllm
灵枢是一款在医疗领域表现卓越的多模态大语言模型,能有效处理医学图像和文本信息,在医疗问答和报告生成任务中展现出了顶尖性能。
ibm-granite
基于granite-vision-3.3-2b构建的高效嵌入模型,专为多模态文档检索设计,可处理包含表格、图表、信息图和复杂布局的文档。
AntResearchNLP
ViLaSR-7B是基于Qwen2.5-VL-7B-Instruct构建的视觉语言模型,专门用于增强空间推理能力。通过交织思维和视觉绘图的方法,该模型在图像文本到文本转换任务中表现出色,能够更好地理解和处理空间关系信息。
TutlaytAI
专注于将图像内容转化为文本信息的模型,具有广泛的应用价值。
NuExtract 2.0是专为结构化信息提取任务训练的多模态模型系列,支持文本和图像输入,具备多语言处理能力。
ChenShawn
DeepEyes是一个通过强化学习激励'以图思考'的视觉语言模型,能够将视觉信息直接融入推理链,在图像文本处理任务中表现出色。
基于知识图谱的持久化记忆服务器,支持跨会话用户信息存储与检索
一个基于Go实现的Unsplash图片搜索和获取的MCP服务,提供关键词搜索、随机图片获取和详细图片信息查询功能,支持多种连接模式和丰富的过滤选项。
一个用于威胁信息收集的MCP服务器项目,支持通过命令行工具收集指定时间范围内的威胁情报,并可集成Neo4j知识图谱。
一个基于知识图谱的持久化记忆服务器,支持跨会话记忆用户信息和错误解决方案学习
PuchAI Hackathon项目提供多种工具集,包括Reddit内容分析、数据可视化图表生成、药品信息查询、用户偏好管理及任务管理功能,支持开发者快速验证市场假设和分析用户需求。
Hivemind是一个Obsidian插件,为虚构世界构建、研究和知识管理提供AI防火墙功能。它通过时间线视图、关系图谱和规范工作流,确保AI工具基于用户笔记中的真实信息进行协作,防止AI幻觉。
这是一个用于与ArtifactHub上的Helm图表交互的MCP服务器,提供Helm图表信息查询、默认值获取、模糊搜索和模板检索等功能。
Photoshop MCP Server是一个通过Model Context Protocol(MCP)与Adobe Photoshop集成的服务,允许AI助手和其他MCP客户端以编程方式控制Photoshop。它提供了创建、打开和保存文档,操作图层,获取会话信息等功能,仅支持Windows系统。
知识图谱记忆服务器实现持久化记忆功能,支持跨会话存储用户信息
TextIn MCP Server是一个文档文本提取和OCR工具,支持从图片、PDF和Word中识别文本、提取关键信息并转换为Markdown格式。
知识图谱记忆服务器是一个基于本地知识图谱的持久化记忆系统,支持跨聊天会话记忆用户信息。
BlueSky MCP服务器是一个通过官方API访问BlueSky社交网络数据的标准化接口服务,提供用户资料和社交图谱信息查询功能。
MCP Helm Server是一个提供与Helm仓库和图表交互工具的服务,使AI助手无需本地安装Helm即可查询仓库、获取图表信息和值文件。
一个基于Sharp库的图片处理MCP服务,提供调整尺寸、格式转换、裁剪、旋转和获取图片信息等功能
Vextra MCP Server是一个基于Model Context Protocol (MCP)的设计文件处理服务器,支持Vextra、Figma、Sketch和SVG等多种设计文件格式,提供布局信息提取、图像渲染和页面信息查询等功能,并与Cursor AI助手无缝集成。
Graphiti MCP Server是一个增强版的知识图谱框架,专门为AI代理在动态环境中构建和查询时间感知的知识图谱。它通过MCP协议暴露核心功能,支持持续集成用户交互、企业数据和外部信息,提供增量更新、高效检索和精确历史查询能力。
Memgraph MCP Server是一个轻量级的Model Context Protocol(MCP)服务器实现,旨在连接Memgraph图数据库与大型语言模型(LLM),提供Cypher查询执行和模式信息获取功能。
Pinterest图片搜索与下载的MCP服务,提供关键词搜索、图片信息获取及下载功能,支持Cursor IDE集成。
一个基于知识图谱的持久化记忆服务器,支持跨会话记忆用户信息并通过错误学习系统积累经验。提供实体关系管理、观察记录存储和错误解决方案管理功能,可集成到Cursor MCP客户端中。
该项目旨在通过多个API接口(如OAI-PMH、IIIF和搜索API)提供对瑞典国家档案馆(Riksarkivet)内容的访问,包括搜索记录、获取集合信息、下载图像等功能,并探索实时手写文本识别(HTR)流程。