商汤科技发布新一代轻量化多模智能体模型SenseNova6.7-Lite,专为满足真实世界流需求设计。该模型采用生多模架构,能直接理解复杂布局、文档结构和财务图表,实现“看、想、做”一体化,提升数据分析、深度调研和PPT生成等任务成功率。技术上,它取消视觉转中间层,以更小参数量实现智能体能力跨越式提升。
智谱发布多模态基座模型GLM-5V-Turbo,专为视觉编程设计。该模型不仅能写代码,还能理解图像、视频、设计稿和文档版面,实现视觉与编程能力的深度融合,将AI Agent的感知范围从文字扩展到视觉界面。
谷歌推出原生多模态嵌入模型Gemini Embedding2,支持文本、图像、视频、音频和文档,统一映射到向量空间,实现跨媒体深度理解。与生成式模型不同,它专注于“理解”,将数据转化为向量,帮助系统识别语义关系。
微软正式推出GPT-5.2模型,作为免费升级版本与现有GPT-5.1共存。该模型具备更强的深度逻辑推理能力,能快速处理电子表格、代码编写与审查、长文档理解等任务,并在复杂工具调用和图像分析方面表现突出,标志着Copilot进入智能增强新阶段。
AI 知识管理工具,上传文档深度理解,生成多种形式输出。
开源的基于深度文档理解的RAG(检索增强生成)引擎
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
Openai
$7.7
$30.8
200
Anthropic
$105
$525
Alibaba
$1
$10
256
$2
$20
-
$3.9
$15.2
64
Bytedance
$0.8
Moonshot
$4
$16
$0.15
$1.5
128
Baidu
32
Tencent
$8
$1.6
$0.4