复旦NLP实验室联合米哈游解读大模型:AI Agents的现状和未来
机器之心
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

阿里巴巴推出千问APP公测版,基于Qwen3模型,与ChatGPT展开全面竞争。该应用已在各大商店上线,并计划推出国际版,旨在为用户提供AI服务,助力开发者洞悉技术趋势。

谷歌AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型,支持自然语言指令实现去背景、主体分离和场景替换,可生成8秒动态镜头。面向免费及以上用户开放,单张处理0.039美元,企业版同步上线Vertex AI。用户上传图片后输入提示词,即可获得PNG透明图或合成效果图。

MiroMind开源bAgent模型MiroThinker v1.0,具备256K上下文窗口和单次600次工具调用能力。创新提出“深度交互Scaling”框架,通过高频环境交互与实时反馈替代传统参数堆叠,实现智能体自我进化。模型集成搜索、Linux沙箱、代码执行等工具链,可在数小时内自主完成复杂任务,如官方示例中通过600轮调用处理食谱和计算热量。

小米更新超级小爱至v7.8.50版,新增“随心修图”功能。用户可通过自然语言指令,利用AI模型自动修图,支持多模态交互识别屏幕和摄像头画面。操作方式包括在相册唤醒小爱或通过App上传照片并输入文字,系统自动完成色彩增强、背景虚化等处理。

夸克公司推出基于阿里Qwen模型的千问助手,具备强推理与任务执行能力,提升用户体验。同日阿里启动千问App公测,通过开源模型通义千问Qwen打造个人AI助手,满足多样化需求。

谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
FutureHouse推出AI科研系统Kosmos,12小时可处理1500篇论文、生成4.2万行代码,产出相当于人类团队半年工作量。系统基于结构化世界模型,在超千万token中保持逻辑连贯,已在神经科学等领域完成7项发现,含4项首次报道。其自主循环架构实现文献检索、知识图谱更新与规划迭代。
小米发布7B参数多模态模型“Xiaomi-MiMo-VL-Miloco-7B-GGUF”及智能管家“Xiaomi Miloco”。系统通过米家摄像头实时识别用户活动与手势,自动联动智能家居设备,兼容Home Assistant协议。模型采用非商用开源许可,支持NVIDIA GPU与Docker环境一键部署。

中国推出多模态AI模型DeepEyesV2,能分析图像、执行代码和网络搜索。它通过智能利用外部工具,而非依赖训练数据,性能超越大型模型。早期实验显示,仅靠强化学习无法稳定完成多模态任务,模型曾尝试编写Python代码分析图像但效果不佳。

根据泄露文件,OpenAI向微软支付巨额分成:2024年约4.938亿美元(占收入20%),2025年前三季度增至8.659亿美元。模型运行成本极高,盈利目标仍遥远。数据未获官方证实。