DeepSeek 下周将推出 V4 大模型,新增支持图片、视频和文本生成功能。这是自 2025 年 1 月 R1 模型后的首次重大升级,进一步布局国内低成本开源市场。财信证券分析师认为,AI 应用商业化进程有望加速,尤其在春节期间,互联网厂商正借助高频消费场景推动技术落地。
谷歌搜索新增“+”按钮,支持上传图片或文档,由Gemini AI模型进行深度分析。该功能目前处于实验阶段,仅部分用户可用。上传后,Gemini可解析内容,用户可即时提问,实现上下文相关查询,如上传说明书后询问零件购买地。
谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
谷歌正式向西班牙语用户开放AI Mode功能,数亿用户可使用西班牙语与Gemini AI进行深度对话。支持复杂问题解答、图片分析及多轮话题讨论,实现更自然的交互体验。
DeepPDF是一个AI研究助手,用于深度学习PDF文档,提供聊天、摘要、翻译比较以及关键术语、图片和公式分析功能。
一款先进的视觉推理模型,能分析图片和视频内容。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Openai
$7.7
$30.8
200
Anthropic
$105
$525
$0.7
$2.8
$21
Alibaba
-
$4
$16
$6
$24
256
$2
$3.9
$15.2
64
$15.8
$12.7
Moonshot
Bytedance
这是一个Google日历的MCP服务器项目,提供与Google Calendar的集成功能,允许通过标准化接口读取、创建、更新和搜索日历事件。支持从图片添加事件、日历分析、出席情况检查、自动协调事件等功能。
MCP Vision Relay 是一个 MCP 服务器,通过封装本地安装的 Gemini 和 Qwen 命令行工具,为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力,使其能够处理本地路径、URL 或 base64 编码的图片。
一个基于Python的LINE MCP服务器,通过标准化接口让语言模型能够读取和分析LINE对话消息。项目使用FastAPI框架,支持文本、贴图和图片消息处理,并提供了消息存储、API端点等核心功能。
基于GLM-4.5V模型的MCP服务器,提供智能图片分析功能,支持从文件路径或剪贴板获取图片,专门用于代码内容提取、架构分析、错误检测和文档生成。
一个集成GLM-4.5V视觉能力的MCP服务器,支持本地图片和URL分析,通过Claude Code提供图像分析功能
一个基于mammoth库的DOCX文档处理MCP服务器,提供文本提取、HTML转换、结构分析、图片提取和Markdown转换等功能,支持完整格式保留和文档分析。
这是一个基于MCP协议的网站克隆服务器,帮助LLM模型获取、分析和下载网站资源,包括HTML内容、CSS、JavaScript、图片等资产,支持创建网站地图和分析页面结构。
该项目是一个基于SerpAPI的Google图片搜索MCP服务器,提供图片搜索、下载和分析功能,帮助AI助手获取相关图像资源。
一个基于GPT-4o-mini模型的图像分析MCP服务器,通过接收图片URL进行内容识别和描述
这是一个用于访问和分析Google广告透明中心数据的MCP服务器,可查询企业广告活动、分析广告内容(包括图片和视频)、比较不同公司的广告策略,并提供广告效果洞察。