Medeo AI推出全新视频代理版本,以智能代理架构为核心,通过自然语言交互实现视频动态编辑与高效迭代,显著降低创作门槛,引发海外市场关注。
英伟达推出通用游戏智能体NitroGen,基于OpenVision动作模型,旨在成为跨虚拟世界的通用代理。其创新在于利用YouTube和Twitch上带有控制器叠加层的游戏视频作为训练数据,学习复杂操控逻辑,突破传统AI的单一用途限制。
谷歌DeepMind CEO哈萨比斯在Axios AI+峰会上预测,2026年将是多模态AI、互动视频世界和可靠AI代理快速发展的关键一年。他特别提到,其最新模型Gemini在多模态能力上已取得显著进展,不仅能描述情节,还能深入理解场景深层含义。
Synthesia发布视频虚拟形象平台3.0版,核心新增“视频代理”功能。这些虚拟形象可在视频中与观众实时互动,包括对话、答疑和提问,并能访问企业专属信息,显著提升企业培训、客服等场景的实用性和真实感。
ReelMate是强大AI视频代理,自动将想法转为视频,免费试用
通过 AI 设计代理快速生成专业图像、视频和 3D 模型。
SJinn是一款强大的AI智能代理,用于图像、视频、音频和3D内容创作。
Lens是世界上第一个基于提示的视频编辑代理。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$2.1
$17.5
Anthropic
$21
$105
200
Alibaba
$2
$20
-
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
256
Deepseek
$4
$12
128
Baidu
Tencent
$0.63
$3.15
131
24
Chatglm
32
Benasd
Qwen2.5-VL是通义千问团队推出的多模态大语言模型,具备强大的视觉理解和智能代理能力,支持图像、视频、文本等多种输入格式。
adb-mcp是一个概念验证项目,旨在通过MCP协议为LLM提供接口,创建控制Adobe工具(如Photoshop和Premiere)的AI代理。该项目包含MCP服务器、Node命令代理服务器和Adobe应用插件,支持自然语言指令操作Adobe软件,适用于图像和视频编辑自动化。
MCP Gemini API服务器是一个为Cursor和Claude设计的Google Gemini API代理服务,提供文本生成、图像分析、视频分析和网络搜索等功能。
百度智能云曦灵数字人开放平台提供基于MCP协议的13个API接口,支持数字人视频生成、音色克隆等功能,兼容多种MCP代理助手快速接入。