复旦NLP实验室联合米哈游解读大模型:AI Agents的现状和未来
机器之心
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
11月6日,科大讯飞在第八届世界声博会暨全球1024开发者节上发布“讯飞星火X1.5”大模型及系列AI产品,主题为“更懂你的AI”。董事长刘庆峰通过数据强调AI技术的行业价值。该模型在国内算力平台完成全链路训练,效率显著提升,支持130种语言处理。
科大讯飞发布星飞星火X1.5深度推理大模型,基于国产算力,采用MoE架构,总参数量达293亿,激活参数30亿。单台昇腾服务器即可部署,推理效率较X1提升100%,端到端性能达国际水平。

Generalist公司发布GEN-0基础模型,揭示机器人缩放定律,推动技术从任务定制迈向通用智能。该模型基于27万小时真实世界数据训练,实现跨硬件平台“边想边做”能力,被喻为机器人领域的“ChatGPT时刻”,强调真实数据优于模拟环境。

OpenAI确认GPT-5内部思考过程文件泄露属实,强调这是模型设计的创新特性而非安全漏洞。泄露内容展示了该模型解决数独等复杂逻辑任务时的独特推理链条,引发行业对人工智能自主推理能力发展的广泛关注。
谷歌推出DS STAR多智能体框架,可将模糊商业问题自动转化为可执行Python代码,无需人工介入。该框架突破传统依赖结构化SQL数据库的限制,能直接处理CSV、JSON、Markdown及非结构化文本等混合格式数据。通过Aanalyzer等组件分阶段实现从问题分析到代码生成的全流程自动化。

我国发布全球首个端到端AI海洋大模型“瞰海”,实现卫星观测到三维预测全链路闭环,可实时重构海况并精准预演未来10天海洋环境变化,为科研与防灾提供“数字海洋镜像”。

月之暗面发布并开源Kimi K2Thinking模型,显著提升智能代理和推理能力。该模型能自主边思考边使用工具,无需用户干预,支持长达300轮工具调用和多轮深度思考,旨在高效处理复杂任务。

印度支付巨头Paytm与美国硬件公司Groq合作,将利用GroqCloud云端服务提升AI模型性能,优化交易处理、风险评估、欺诈检测和消费者互动。GroqCloud基于自主研发的语言处理单元,专注于AI推理,旨在增强Paytm平台的智能化水平。
MiniMax M2模型采用全注意力机制,放弃线性或稀疏注意力技术。开发团队认为,尽管后者能节省计算资源,但全注意力在工业应用中更高效,能提升模型性能。这一决策旨在优化实际部署效果,推动AI技术发展。
美团LongCat团队推出UNO-Bench基准测试,系统评估多模态模型能力。该基准覆盖44种任务类型和5种模态组合,包含1250个全模态样本(跨模态可解性98%)及2480个增强单模态样本,全面测试模型在单模态与全模态场景下的性能表现。