智谱 AI 开源视觉语言模型 CogAgent,支持 GUI 图形界面问答

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,香港推出了名为 “聆音” 的 EchoCare 超声大模型,这是全球首个训练规模超过400万张超声影像的数据集。该项目由中国科学院香港创新研究院的人工智能与机器人创新中心(CAIR)研发,旨在缓解超声医生紧缺的问题,并提高超声设备的使用效率和诊断水平。随着超声技术在疾病诊断和健康检测中日益重要,中国每年进行的超声检查量已达到20亿次,然而国内超声医生的缺口却高达15万。培养一名合格的超声医生需要3到5年,甚至某些领域的专家需要更长时间,这使得超声检查的普及面
近日,国际数据公司(IDC)发布了一份重磅报告,揭示了中国公有云大模型服务市场的最新动态。根据这份名为《中国大模型公有云服务市场分析,2025H1》的报告,预计到 2025 年上半年,中国公有云上大模型的调用量将达到惊人的 536.7 万亿个 Tokens。在这一市场中,火山引擎无疑是最大的赢家,以 49.2% 的市场份额雄踞第一。这一成就不仅展示了火山引擎在技术与服务上的优势,也彰显了其在公有云领域的强大竞争力。紧随其后的是阿里云和百度智能云,分别以 27% 和 17% 的市场份额位列第二
近日,阿里云正式宣布通义万相全新动作生成模型 Wan2.2-Animate 的开源,这一模型的推出将为短视频创作、舞蹈模板生成和动漫制作等领域带来极大便利。用户可以通过 GitHub、HuggingFace 和魔搭社区轻松下载模型及相关代码,此外,还可以利用阿里云的百炼平台调用 API,或在通义万相官网直接体验该模型的强大功能。Wan2.2-Animate 模型是在之前的 Animate Anyone 模型基础上进行全面升级的成果。在人物一致性和生成质量等方面都有了显著提升。该模型支持两种主要的应用模式:动作模仿和角色扮演
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio小米公司宣布开源其首个原生端到端语音大模型 Xiaomi-MiMo-Audio,标志着语音技术领域的重大突破。该模型基于创新的预训练架构和上亿小时的训练数据,在少样本泛化能力方面表现出色,并在多个评测基准中超越了其他闭源模型。【AiBase提
Suno近日通过神秘预告视频引发全球热议:其第五代音乐模型“v5”即将推出。这一声明被业内视为AI音乐创作的“变革性”里程碑,预计将进一步模糊人类作曲与机器生成的界限,推动从业余爱好者到专业制作人的创作门槛大幅降低。Suno官方于9月18日晚间在社交平台发布一段15秒短视频,画面中闪烁着抽象的音符与光影交织,配以低沉的电子旋律,结尾定格在“coming soon...”的字样。该视频迅速积累超过10万次浏览,并在数小时内引发数千条讨论。视频虽未透露具体发布时间,但从Suno以往迭
2025年9月19日,阿里云宣布通义万相全新动作生成模型 Wan2.2-Animate 正式开源。该模型能够驱动人物、动漫形象和动物照片,广泛应用于短视频创作、舞蹈模板生成、动漫制作等领域。用户可以在 GitHub、HuggingFace 和魔搭社区下载模型和代码,也可以通过阿里云百炼平台调用 API 或在通义万相官网直接体验。 Wan2.2-Animate 模型是基于此前开源的 Animate Anyone 模型全面升级的成果,在人物一致性、生成质量等指标上大幅提升,同时支持动作模仿和角色扮演两种模式。在角色模仿模式下,输入一张角色图片和一段参考视频,模型可以将视频角色的动作和表情迁移到图片角色中,赋
视频生成AI领域迎来里程碑式升级。Luma AI正式发布Ray3模型,这款被称为全球首个"推理视频模型"的产品,通过内置多模态推理系统彻底改变了AI视频生成的游戏规则。Ray3的核心创新在于其智能推理能力。不同于传统的随机生成模式,这个模型能够像真正的创意伙伴一样理解用户意图、规划复杂场景并自我评估输出质量。它会先在"脑海"中构思故事板,然后进行迭代优化,这种类似动画师工作流程的方式显著提升了生成效果的准确性和艺术性。技术规格方面,Ray3支持从草图到4K分辨率的完整
Luma AI 最近推出了一款名为 Ray3的视频生成模型,声称这是第一款能够制作出专业级 HDR(高动态范围)视频的产品。Ray3支持10位、12位,甚至16位的色深,能够输出 EXR 格式文件,这使得它能够与专业的编辑和调色工作流程无缝集成。此外,Ray3还具备将标准 SDR 视频转换为 HDR 的能力,为用户提供了更多的创作选择。Ray3的一个显著特点是其被称为 “推理” 能力的功能。这种能力使其能够同时理解图像和语言,能够执行复杂的指令,并对自己的输出进行评估。Luma AI 表示,Ray3可以对早期草稿进
科技巨头总是不时抛出震撼弹。谷歌曾声称其量子芯片证明了多元宇宙的存在,Anthropic让AI智能体Claudius经营零食自动售货机结果失控,对顾客报警并坚称自己是人类。这周轮到OpenAI让所有人大跌眼镜。OpenAI周一发布的研究报告揭示了如何阻止AI模型进行"阴谋活动"。研究人员将这种行为定义为"AI表面上表现出一种方式,但实际上隐藏着真正的目标"。在与Apollo Research合作的论文中,研究人员进一步将AI阴谋行为比作股票经纪人为了赚更多钱而违法的行为。不过,研究人员认为大多数AI"阴谋活
在语音合成技术快速发展的背景下,面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)近日联合发布了一款新型语音生成模型 ——VoxCPM。这款模型以0.5B 的参数尺寸,致力于为用户提供高质量、自然的语音合成体验。VoxCPM 的推出标志着高拟真语音生成领域的又一里程碑。该模型在自然度、音色相似度及韵律表现力等关键指标上,均达到了行业领先水平。通过零样本声音克隆技术,VoxCPM 能够以极少的数据,生成用户独特的声音,从而实现个性化的语音合成。这一技术进步