国内首个全模态实时交互视觉语言模型VisualGPT在青岛发布,用户可上传图片视频并直接圈选提问,模型秒级返回答案、代码或3D场景,同步开放智能体训练平台及算力资源,推动AI交互进入视觉界面即时互动新阶段。
Quora旗下AI平台Poe推出群聊功能,支持最多200人同时与多种AI模型互动,涵盖文本、图像、视频和音频生成。此举与OpenAI的ChatGPT群聊试点同步,推动AI交互变革,增强用户与亲友或同事的协作交流。
李飞飞World Labs推出Marble 3D世界模型公测版,支持文本、图像、视频等多模态输入,快速生成可交互虚拟宇宙,助力开发者探索AI技术应用。
知名AI专家李飞飞的World Labs推出Marble3D世界模型公测版,支持文本、图像、视频或3D布局直接生成完整可导航的3D虚拟世界。用户可实时交互编辑,并导出高斯溅射、三角网格或视频格式。此次公测标志着该产品从实验室概念转向实用工具。
下一代情感智能的对话视频界面,让AI交互更自然、更人性。
赛灵力虚拟数字人工厂提供 AI 虚拟人视频创作服务,让数字人拥有真人般交互能力。
Anthropic
$105
输入tokens/百万
$525
输出tokens/百万
200
上下文长度
Google
$2.1
$17.5
1k
$0.7
$2.8
Alibaba
-
$2
$20
$8
$240
52
$3.9
$15.2
64
Bytedance
$0.8
128
$0.15
$1.5
256
Baidu
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
YouTube MCP服务器是一个标准化接口实现,允许AI语言模型通过协议与YouTube内容进行交互,提供视频信息获取、字幕管理、频道和播放列表管理等功能。
360 AI 云盘 MCP 服务实现,允许 AI 模型通过标准协议与云盘交互,提供文件管理、上传下载、视频处理等智能操作能力。
YouTube MCP是一个基于AI的解决方案,旨在通过机器学习技术提升YouTube内容交互体验,支持视频搜索、字幕获取及语义搜索等功能,无需官方API。
YouTube MCP服务器是一个实现模型上下文协议(MCP)的服务,为AI语言模型提供与YouTube内容交互的标准化接口,支持视频信息获取、字幕管理、频道和播放列表操作等功能。