可灵AI 3.0版本发布,核心升级视频与图片生成能力,聚焦叙事、画面可控及多模态协同。新增“智能分镜”功能,旨在提升创作体验。
君逸数码推出自研AI智能体平台,面向政企客户。平台集成多模态数据分析、智能知识库、精准问答与任务自主执行等功能,旨在提升行业智能化水平。该平台与Deepseek等主流大模型深度结合,可应用于智慧城市、政府事务及交通管理等领域。
Rokid正与顶尖大模型公司合作开发新一代AI智能眼镜,以生成式AI和AI智能体为核心,打造革命性操作系统和界面。该眼镜采用端侧多模态模型,支持语音、视觉和触控等多种交互方式,旨在提供全新用户体验。
三星宣布将于2026年推出下一代AR眼镜,核心亮点是从“显示”转向“理解”,强调多模态AI体验,实现AI与现实环境的深度交互,提供更直观的智能辅助。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
$8
$240
52
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
ginipick
Gemma3-R1984-4B是基于谷歌Gemma-3-4B模型构建的强大智能体AI平台,支持多模态文件处理和深度研究能力。
OpenGVLab
InternVL3-8B是OpenGVLab推出的先进多模态大语言模型,具备强大的多模态感知与推理能力,支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。
InstaDeepAI
ChatNT是首个深度理解生物序列(DNA、RNA、蛋白质)的多模态对话智能体,支持自然语言交互处理生物数据。
yeliudev
VideoMind是一个多模态智能体框架,通过模拟类人的认知过程来增强视频推理能力。
VideoMind是一个多模态智能体框架,通过模拟人类思维过程来增强视频推理能力。
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
microsoft
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
lamm-mit
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和交互。
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和互动。