英伟达发布Lyra2.0系统,通过单张照片即可生成延伸90米的大规模、高连贯性3D虚拟环境,解决了长距离相机路径下的图像失真问题。该技术突破标志着AI在3D空间理解与实时环境模拟领域取得重要进展,尤其满足了具身智能训练对高质量虚拟场景的迫切需求。
苹果iOS 26系统升级了短信应用,重点优化了群聊、垃圾信息防护和搜索功能。新搜索利用AI技术,能更智能地查找历史对话中的各类信息,解决了以往依赖精确关键词的局限,帮助用户高效管理占用大量iCloud空间的聊天记录。
谷歌推出Gemini“Notebooks”功能,打造个人知识库,帮助用户高效处理复杂项目。该功能打通了Gemini与NotebookLM的数据壁垒,构建闭环AI工作流。用户可在集成空间集中管理聊天记录、文档和PDF,导入历史对话并通过自定义指令引导Gemini进行智能分析。
京东探索研究院开源JoyAI-Image-Edit模型,实现AI修图从平面处理到三维空间建模的突破。该模型具备“空间智能”,能理解物理空间规律,支持相机感知和物体位移等三维建模,开发者可直接调用代码进行场景几何保持的图像编辑。
Magma 是一个能够理解和执行多模态输入的基础模型,可用于复杂任务和环境。
FilmAgent是一个基于LLM的多智能体协作框架,用于虚拟3D空间中的端到端电影自动化制作。
AI系统从单张图片生成3D世界
利用大规模机器学习理解场景并连接全球数百万场景的地理空间模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
-
Anthropic
$105
$525
200
$7
$35
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$0.15
$1.5
32
Xai
$1.4
$10.5
$54
$163
Deepseek
$12
sensenova
SenseNova-SI是基于多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万样本数据训练,在多个空间智能基准测试中取得了优异表现,同时保持了强大的通用多模态理解能力。
SenseNova-SI是基于成熟多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万数据样本训练,在多个空间智能基准测试中展现出卓越性能,同时保持强大的通用多模态理解能力。
SenseNova-SI是基于多模态基础模型构建的空间智能模型系列,专门针对空间理解能力进行优化。通过大规模空间智能数据训练,在度量估计、空间关系理解、视点变化处理等方面表现优异。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
该项目实现了模型上下文协议(MCP)作为个人智能框架(PIF)的实践方案,通过结构化工具和渐进式交互模式,为人类与AI之间构建有意义的理解发展空间。
基于MCP协议的引力波信号检测与优化系统,专注于GW150914事件分析,通过AI智能探索参数空间实现高效信号检测
SQLite MCP Server 是一个企业级SQLite数据库增强工具,提供73个专用工具,支持高级分析、JSON操作、文本处理、向量搜索、地理空间操作和智能工作流自动化,具备AI原生JSON操作和增强安全性。
VibeCraft是一个AI驱动的Minecraft建造助手,通过自然语言对话连接AI与WorldEdit,提供46个MCP工具、空间感知、家具库和建筑模板,实现智能化的世界编辑与建造。
该项目实现了一个Dry.ai平台的MCP服务器,允许用户通过Claude桌面客户端连接并访问配置的智能空间。