英伟达发布Lyra2.0系统,通过单张照片即可生成延伸90米的大规模、高连贯性3D虚拟环境,解决了长距离相机路径下的图像失真问题。该技术突破标志着AI在3D空间理解与实时环境模拟领域取得重要进展,尤其满足了具身智能训练对高质量虚拟场景的迫切需求。
智元机器人发布新一代具身基座大模型GO-2,旨在弥合机器人理解指令与精准执行间的语义鸿沟。该模型首创“动作思维链”技术,使机器人在执行前先进行内部推理规划,从而提升任务执行的准确性和效率,推动具身智能领域发展。
京东探索研究院开源JoyAI-Image-Edit模型,实现AI修图从平面处理到三维空间建模的突破。该模型具备“空间智能”,能理解物理空间规律,支持相机感知和物体位移等三维建模,开发者可直接调用代码进行场景几何保持的图像编辑。
上汽通用与火山引擎合作,将豆包大模型引入别克至境E7,推动智能座舱从“指令交互”升级为“语义理解”。新系统能识别20多种情绪,通过语调、语速感知用户心情,实现从“执行工具”到“理解者”的转变。
Panofy可训练专属AI智能体,精准理解需求,用于工作流和文档生成。
OdysseyGPT是一款智能文档理解工具,帮助用户快速提取文档信息并作出分析。
简单而强大的预算制定工具,智能追踪支出习惯,自动化预算,帮助用户理解和管理财务健康。
Propoliskey利用智能代理自动化QA需求,通过开发能理解并浏览应用程序的智能代理,发现并展示错误和漏洞。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$8
$240
52
Bytedance
$1.2
$3.6
4
sensenova
SenseNova-SI是基于多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万样本数据训练,在多个空间智能基准测试中取得了优异表现,同时保持了强大的通用多模态理解能力。
SenseNova-SI是基于成熟多模态基础模型构建的空间智能增强模型系列,通过精心策划的800万数据样本训练,在多个空间智能基准测试中展现出卓越性能,同时保持强大的通用多模态理解能力。
SenseNova-SI是基于多模态基础模型构建的空间智能模型系列,专门针对空间理解能力进行优化。通过大规模空间智能数据训练,在度量估计、空间关系理解、视点变化处理等方面表现优异。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
DevDocs是一款智能文档爬取与处理工具,旨在帮助开发者快速理解和实现技术文档,大幅缩短研发周期。
高性能批量代码理解MCP工具包,专为Java优化,提供全景上下文、结构映射和精准定位功能,帮助AI智能体高效探索大型代码库。
该项目实现了模型上下文协议(MCP)作为个人智能框架(PIF)的实践方案,通过结构化工具和渐进式交互模式,为人类与AI之间构建有意义的理解发展空间。
一个基于模型上下文协议(MCP)的服务器,通过构建代码知识图谱为大型语言模型提供TypeScript代码库的深度上下文理解。它使用AST分析解析代码,在Neo4j中构建全面的图表示,并通过语义搜索和图遍历提供智能查询能力。
Go代码图形分析工具,通过MCP协议为AI助手提供代码理解能力,支持代码结构可视化和智能查询
Lyra Intel是一个用于大规模代码库分析的完整智能基础设施引擎,结合了深度代码分析、AI驱动的洞察、语义搜索和安全扫描,支持从本地到企业级的部署,提供全面的代码理解、安全审计和智能洞察功能。
Octocode MCP是一款先进的AI代码助手,提供跨GitHub和npm生态系统的智能搜索与发现功能,帮助开发者快速理解代码库、分析项目架构、发现安全模式,并支持企业级安全与跨平台使用。
NCP是一个MCP协议智能编排器,将多个MCP服务器统一管理,通过语义理解自动路由工具调用,大幅减少AI工具的认知负担和token消耗,提升AI助手的工作效率和响应速度。
Code Graph RAG MCP是一个先进的模型上下文协议服务器,通过智能图表示和多语言代码分析能力,提供13种专业工具进行代码理解、关系映射和语义搜索。
MCP代码索引器是一个专为AI大语言模型设计的智能代码检索工具,通过语义理解和向量化索引提升代码处理效率和准确性,支持代码分析、质量评估和依赖管理等功能。
基于人工智能的号卡查询工具,通过自然语言理解用户需求,自动查询172号卡平台数据并智能推荐最符合需求的套餐,显著减少用户选择时间。
基于语义理解的代码搜索MCP服务器,使用本地嵌入模型和向量数据库实现智能代码检索,替代传统文本搜索工具
XRAY MCP 是一个为AI助手设计的渐进式代码智能工具,通过ast-grep提供结构化的代码分析能力,帮助AI理解代码库结构、符号关系和变更影响,无需复杂配置或语言服务器。
Ummon是一个代码分析工具,通过构建代码知识图谱来增强对代码库的理解,支持多语言代码分析、高级查询系统和智能推荐功能。
MCPunk是一个无需嵌入的代码库对话工具,通过智能搜索代码块帮助LLM理解代码库。
CodeFlow是一个智能代码分析工具,通过解析代码的抽象语法树生成详细的调用关系图,并提供语义搜索功能。它包含CLI工具和MCP服务器两种接口,旨在帮助开发者以最小的认知负担理解复杂代码库。
Popcorn是一个让AI智能体能够观看和理解视频的MCP工具,通过本地提取视频字幕、检测场景变化并返回关键帧,无需外部API,保护隐私。
MiniMe-MCP是一个AI开发助手升级项目,通过创建开发者的数字孪生体,实现跨项目的持久记忆和智能模式识别。它解决了传统AI助手缺乏记忆和上下文理解的问题,提供个性化、基于历史经验的编码建议,支持多种IDE工具,并能在本地运行保障数据隐私。
CastPlan MCP是一个AI驱动的智能编程环境,通过四层架构实现自然流畅的'氛围编程'体验,让AI深度理解项目上下文并提供智能辅助,支持多语言团队协作和自动化工作流。