TRAE发布SOLO正式版,定位“响应式编程助手”,面向专业开发者提供实时可控、多任务并行的AI编程体验。该版本已开放国际版并限时免费。今年7月Beta版推出内置智能体SOLO Builder,支持多模态需求理解与任务分解,助力快速构建端到端应用。
谷歌DeepMind发布多模态智能体SIMA2,基于Gemini2.5Flash-lite模型,任务成功率较前代提升约一倍。新版本能在陌生环境中执行复杂指令,具备自我改进能力,通过引入自生成数据循环机制:系统调用独立Gemini模型在新场景中批量生成任务。目前以研究预览形式发布,旨在验证实现通用人工智能所需的高阶世界理解与推理能力。
百度世界大会上,小度科技发布升级版多模态AI助手“超能小度”,整合语音、视觉和空间信息,提升感知能力。该助手支持听、说及环境识别,数千万小度设备可免费升级,推动人机交互进步,让用户体验更智能生活。
AI专家Andrej Karpathy在访谈中指出,当前智能体如Claude和Codex虽令人惊叹,但距离真正实用还需十年。它们更像缺乏经验的多模态实习生,AGI成熟度仍待提升。
Qwen
Qwen3-VL-2B-Thinking是Qwen系列中最强大的视觉语言模型之一,采用GGUF格式权重,支持在CPU、NVIDIA GPU、Apple Silicon等设备上进行高效推理。该模型具备出色的多模态理解和推理能力,特别增强了视觉感知、空间理解和智能体交互功能。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备增强推理能力的8B参数版本。该模型在文本理解、视觉感知、空间理解、长上下文处理等方面全面升级,支持多模态推理和智能体交互。
unsloth
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
Qwen3-VL是阿里巴巴推出的最新一代视觉语言模型,在文本理解、视觉感知、空间理解、视频分析和智能体交互等方面均有显著提升。该模型支持多模态输入,具备强大的推理能力和长上下文处理能力。
ginipick
Gemma3-R1984-4B是基于谷歌Gemma-3-4B模型构建的强大智能体AI平台,支持多模态文件处理和深度研究能力。
OpenGVLab
InternVL3-8B是OpenGVLab推出的先进多模态大语言模型,具备强大的多模态感知与推理能力,支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。
InstaDeepAI
ChatNT是首个深度理解生物序列(DNA、RNA、蛋白质)的多模态对话智能体,支持自然语言交互处理生物数据。
yeliudev
VideoMind是一个多模态智能体框架,通过模拟类人的认知过程来增强视频推理能力。
VideoMind是一个多模态智能体框架,通过模拟人类思维过程来增强视频推理能力。
VideoMind是一个多模态智能体框架,通过模拟人类思维的处理流程(如任务拆解、时刻定位与验证和答案合成)来增强视频推理能力。
microsoft
Magma是一个多模态AI智能体基础模型,能够处理图像和文本输入并生成文本输出,具备虚拟与现实环境中的复杂交互能力。
lamm-mit
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和交互。
Cephalo是一系列专注于多模态材料科学的视觉大语言模型(V-LLMs),旨在整合视觉和语言数据,以促进人机交互或多智能体AI框架中的高级理解和互动。