蚂蚁集团旗下灵波科技开源高精度空间感知模型LingBot-Depth,基于奥比中光双目3D相机数据,提升环境深度感知与三维空间理解能力,助力机器人、自动驾驶等智能终端实现更精准可靠的三维视觉,突破行业关键难题。
吉利推出豪华MPV银河V900,定位AI全场景家庭旗舰,售价26.98万至32.98万元。该车拥有3.97米车内空间、1220公里续航、6.5秒破百性能及无图NOA智能驾驶,以AI技术重塑家庭出行体验。
阿里巴巴高德地图发布自研世界模型“FantasyWorld”,利用真实导航数据在国际权威基准WorldScore Leaderboard获综合第一,拓展阿里AI布局。该模型专注于高品质3D世界构建,为具身智能和自动驾驶提供关键技术支撑。
高德地图全面转型空间智能,在权威评测WorldScore中凭借自研世界模型夺得多个第一,展现出顶尖的物理世界模拟能力。
Magma 是一个能够理解和执行多模态输入的基础模型,可用于复杂任务和环境。
FilmAgent是一个基于LLM的多智能体协作框架,用于虚拟3D空间中的端到端电影自动化制作。
AI系统从单张图片生成3D世界
利用大规模机器学习理解场景并连接全球数百万场景的地理空间模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
-
Anthropic
$105
$525
200
$7
$35
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$0.15
$1.5
32
Xai
$1.4
$10.5
Deepseek
$12
$54
$163
sensenova
SenseNova-SI是基于多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万样本数据训练,在多个空间智能基准测试中取得了优异表现,同时保持了强大的通用多模态理解能力。
SenseNova-SI是基于成熟多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万数据样本训练,在多个空间智能基准测试中展现出卓越性能,同时保持强大的通用多模态理解能力。
SenseNova-SI是基于多模态基础模型构建的空间智能模型系列,专门针对空间理解能力进行优化。通过大规模空间智能数据训练,在度量估计、空间关系理解、视点变化处理等方面表现优异。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
该项目实现了模型上下文协议(MCP)作为个人智能框架(PIF)的实践方案,通过结构化工具和渐进式交互模式,为人类与AI之间构建有意义的理解发展空间。
基于MCP协议的引力波信号检测与优化系统,专注于GW150914事件分析,通过AI智能探索参数空间实现高效信号检测
SQLite MCP Server 是一个企业级SQLite数据库增强工具,提供73个专用工具,支持高级分析、JSON操作、文本处理、向量搜索、地理空间操作和智能工作流自动化,具备AI原生JSON操作和增强安全性。
VibeCraft是一个AI驱动的Minecraft建造助手,通过自然语言对话连接AI与WorldEdit,提供46个MCP工具、空间感知、家具库和建筑模板,实现智能化的世界编辑与建造。
该项目实现了一个Dry.ai平台的MCP服务器,允许用户通过Claude桌面客户端连接并访问配置的智能空间。