阶跃星辰开源多模态视觉语言模型Step3-VL-10B,仅10B参数却在多项基准测试中表现卓越,解决了小模型智能水平不足的痛点。该模型在视觉感知、逻辑推理和数学竞赛等维度达到同规模最优,甚至超越规模大10至20倍的开源及闭源旗舰模型。
扫地机器人正从简单清扫工具升级为智能管家。借助AI技术,它们能通过多模态感知和实时决策,自主适应复杂家居环境。如今主流产品已能精准识别拖鞋、电线等障碍物,避免缠绕或污染,实现更高效、个性化的清洁体验。
小鹏汽车在2026年全球新品发布会上宣布,其新款车型将搭载自研的第二代VLA大模型,这是行业首个具备L4初阶能力的物理世界大模型。该模型标志着智能驾驶系统从“感知-决策”向“理解-推演-生成”新范式的转变,突破了传统依赖规则或有限场景的限制。
在2026联想创新科技大会上,联想推出个人超级智能体Lenovo Qira,实施“一体多端、个人AI”战略。Qira支持多终端无缝运行,通过跨设备协同与情境感知提供个性化服务。同时,面向中国市场的天禧AI升级至4.0版本,与Qira基于统一“端云一体”架构,形成海外与国内协同的AI生态布局。
Aria Gen 2 是一款用于机器感知、情境 AI 和机器人研究的新型智能眼镜。
发现一种更智能的浏览方式,使用先进的GPT技术提供的聊天、上下文感知和文本纠错功能
Aria每日活动数据集,加速机器感知和人工智能发展
探索更智能的浏览方式,GPT聊天、上下文感知、纠错功能一体化。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
-
Anthropic
$105
$525
200
$7
$35
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$0.15
$1.5
32
Xai
$1.4
$10.5
$54
$163
Deepseek
$12
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
Qwen3-VL是阿里巴巴推出的新一代视觉语言模型,在文本理解、视觉感知、空间理解、长上下文处理和智能体交互等方面全面升级,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
Qwen
Qwen3-VL-30B-A3B-Thinking是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是通义大模型系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。该模型采用混合专家(MoE)架构,是增强推理的思维版。
DeepContext是一个MCP服务器,为代码助手提供基于符号感知的语义搜索功能,通过智能解析代码结构和语义关系,在大型代码库中精准定位相关代码片段,提升开发效率。
一个基于Model Context Protocol (MCP)的服务端,提供检索增强生成(RAG)能力,集成Cursor IDE和Claude Desktop等客户端,实现领域知识问答、智能检索和上下文感知的响应生成。
一个基于Model Context Protocol (MCP)的服务端项目,提供检索增强生成(RAG)能力,可作为Cursor IDE和Claude Desktop等客户端与Contextual AI代理的桥梁,实现基于知识库的智能问答和上下文感知响应。
Obsidian语义MCP服务器是一个AI优化的知识管理工具,通过5个语义操作整合20多种功能,提供智能工作流建议和上下文感知编辑功能。项目已升级为原生Obsidian插件,提供更优性能。
Medium MCP Server是一个创新的解决方案,用于程序化地与Medium内容生态系统交互,实现智能且上下文感知的内容检索。
Unsplash智能MCP服务器是为AI代理设计的专业图库集成方案,提供智能搜索、自动归因和项目感知的图片管理功能,简化开发者的视觉内容获取流程。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
Smart MCP Server是一个智能化的中间件服务器,通过上下文感知技术动态管理工具选择和执行,集成了多种AI和开发工具,支持复杂工作流编排和文档自动化处理。
MCP Agent TypeScript版是一个基于TypeScript的智能上下文感知代理框架,提供模块化架构、高级工作流管理、强大日志系统和灵活执行器等功能,是原版MCP Agent的TypeScript移植版本。
神经儿童发展系统是一个突破性的人工智能框架,通过模拟人类心理发展阶段(包括认知、情感和社交成长)来重构神经网络的学习方式。该系统整合了发展心理学理论(如皮亚杰认知发展阶段、依恋理论)和神经科学原理,构建了包含感知处理、情感调节、记忆系统和心理组件的复杂架构,旨在创建具有真实情感智能和自然发展能力的AI。
基于MCP协议的医疗数据库连接服务器,提供虚拟文件系统导航、智能表结构查询、安全SQL执行和时间感知功能,帮助AI助手安全访问医院管理数据。
VibeCraft是一个AI驱动的Minecraft建造助手,通过自然语言对话连接AI与WorldEdit,提供46个MCP工具、空间感知、家具库和建筑模板,实现智能化的世界编辑与建造。