优必选推出开源具身智能大模型Thinker,旨在提升工业人形机器人的空间理解和视觉感知能力,解决现有模型精度低、参数多、实时性差等问题。官方指出,当前机器人大模型面临数据质量参差不齐的挑战。
蚂蚁集团旗下灵波科技开源高精度空间感知模型LingBot-Depth,基于奥比中光双目3D相机数据,提升环境深度感知与三维空间理解能力,助力机器人、自动驾驶等智能终端实现更精准可靠的三维视觉,突破行业关键难题。
高德发布“智能穿戴解决方案”,通过“数据底座+AI空间智能+生态协同”技术架构,解决智能手表与眼镜交互不便、算力受限及生态割裂问题。方案整合高德全量出行数据与高精导航引擎,实现厘米级定位与实时路况更新,并引入“小高老师”AI空间智能体,精准感知用户场景与出行需求。
高德地图推出“AI停车雷达”,实时感知目的地周边道路车位占用情况,帮助用户高效规划停车,减少绕行等待。该功能融合空间智能感知、AI视觉分析与实时交通数据,实现分钟级车位动态推演与可视化,并在导航中提供智能停车建议。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Anthropic
$7
$35
200
Xai
$1.4
$10.5
256
$1.75
$14
400
Huawei
-
32
Google
$0.35
$0.7
131
$3.5
16
$8.75
$0.49
$2.1
$210
$420
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
VibeCraft是一个AI驱动的Minecraft建造助手,通过自然语言对话连接AI与WorldEdit,提供46个MCP工具、空间感知、家具库和建筑模板,实现智能化的世界编辑与建造。