微软开源全新多模态 AI Agent “Magma”:可自动下单与行为预测
近日,微软在其官网正式开源了一款名为 “Magma” 的多模态 AI Agent 基础模型。这款新型人工智能具有跨越数字和物理世界的能力,能够同时处理图像、视频、文本等多种数据类型。与传统的 AI 助手相比,Magma 的独特之处在于其心理预测功能,使其能够更加准确地理解视频中人物或物体的意图及未来行为。Magma 的应用场景十分广泛,用户可以利用这款 AI 进行自动下单购物、查询天气等日常操作。此外,它还能够自动控制实体机器人,并在下象棋等活动中为用户提供实时帮助。这种多模态能