阿里巴巴达摩院发布具身智能大脑基础模型RynnBrain,并向开发者开源7个全系列模型,包括30B MoE规模。该模型首次赋予机器人时空记忆与空间推理能力,显著提升智能交互水平,推动国产具身大脑基座模型开源生态发展。
360集团推出国内首个工业级AI漫剧智能体生产平台“纳米漫剧流水线”,已在郑州落地,吸引近百家短剧及影视机构关注。该平台旨在解决漫剧市场“产能瓶颈”与“品质焦虑”,依托自研“纳米空间引擎”,实现极致一致性等核心突破,提供稳定高效的完整解决方案。
优必选推出开源具身智能大模型Thinker,旨在提升工业人形机器人的空间理解和视觉感知能力,解决现有模型精度低、参数多、实时性差等问题。官方指出,当前机器人大模型面临数据质量参差不齐的挑战。
蚂蚁集团旗下灵波科技开源高精度空间感知模型LingBot-Depth,基于奥比中光双目3D相机数据,提升环境深度感知与三维空间理解能力,助力机器人、自动驾驶等智能终端实现更精准可靠的三维视觉,突破行业关键难题。
FilmAgent是一个基于LLM的多智能体协作框架,用于虚拟3D空间中的端到端电影自动化制作。
AI智能空间装修设计平台
智能设计工具,改变空间设计方式
AI智能生成梦幻空间
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
-
Anthropic
$105
$525
200
$7
$35
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$0.15
$1.5
32
Xai
$1.4
$10.5
$54
$163
Deepseek
$12
sensenova
SenseNova-SI是基于多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万样本数据训练,在多个空间智能基准测试中取得了优异表现,同时保持了强大的通用多模态理解能力。
SenseNova-SI是基于成熟多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万数据样本训练,在多个空间智能基准测试中展现出卓越性能,同时保持强大的通用多模态理解能力。
SenseNova-SI是基于多模态基础模型构建的空间智能模型系列,专门针对空间理解能力进行优化。通过大规模空间智能数据训练,在度量估计、空间关系理解、视点变化处理等方面表现优异。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
该项目实现了模型上下文协议(MCP)作为个人智能框架(PIF)的实践方案,通过结构化工具和渐进式交互模式,为人类与AI之间构建有意义的理解发展空间。
基于MCP协议的引力波信号检测与优化系统,专注于GW150914事件分析,通过AI智能探索参数空间实现高效信号检测
SQLite MCP Server 是一个企业级SQLite数据库增强工具,提供73个专用工具,支持高级分析、JSON操作、文本处理、向量搜索、地理空间操作和智能工作流自动化,具备AI原生JSON操作和增强安全性。
VibeCraft是一个AI驱动的Minecraft建造助手,通过自然语言对话连接AI与WorldEdit,提供46个MCP工具、空间感知、家具库和建筑模板,实现智能化的世界编辑与建造。
该项目实现了一个Dry.ai平台的MCP服务器,允许用户通过Claude桌面客户端连接并访问配置的智能空间。