昆仑万维发布轻量级多模态智能体Skywork R1V4-Lite,集成视觉操作、推理与规划能力。区别于传统模型,它具备深度推理功能,支持图像操作、工具调用和多模态研究,适用于复杂场景。用户仅需拍摄照片,即可自动完成空间定位、文字放大、辅助线绘制等任务,操作灵活高效。
阿里巴巴推出开源多模态智能体WebWatcher,整合网页浏览、图像搜索、代码解释器等工具,突破现有闭源系统局限。该智能体具备视觉理解、逻辑推理、知识调用等能力,可像人类研究员一样处理复杂多模态任务。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Anthropic
$105
$525
200
$7
$35
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
-
$3.9
$15.2
64
Bytedance
$0.8
Moonshot
128
$0.15
$1.5
Baidu
32
Xai
$1.4
$10.5
Tencent
$8
$54
$163
ginipick
Gemma3-R1984-4B是基于谷歌Gemma-3-4B模型构建的强大智能体AI平台,支持多模态文件处理和深度研究能力。