GPT-5 爆料:多模态 Gobi 将在 2024 年初发布
新智元
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、豆包上线Seedance1.5Pro,可直接生成有声视频字节跳动新一代音视频创作模型Seedance1.5Pro正式登陆豆包,为普通用户提供了零门槛制作有声视频的新体验。它还具备解析公众号文章、图片及文档内容的能力,并支持语音交互,降低了使用门槛,适合各类用户群体。
OpenAI发布GPT-5.2-Codex,这是其最先进的智能体编程模型。它专为处理复杂、长期的现实编码任务设计,在基准测试中创下新纪录,并能自主完成从代码理解、环境搭建到漏洞挖掘和提交Pull Request的全流程。该模型融合了GPT-5.2的通用推理能力和GPT-5.1-Codex-Max的终端操作功能,标志着AI在软件工程实战能力上的重大突破。
OpenAI计划融资高达1000亿美元,若成功其估值将达8300亿美元,逼近全球最高市值企业。融资预计2025年第一季度完成,规模罕见。

苹果推出多模态AI模型UniGen1.5,整合图像理解、生成与编辑三大功能于统一框架,显著提升效率。该模型利用图像理解能力优化生成效果,实现技术突破。
瑞典AI公司Lovable完成3.3亿美元B轮融资,由谷歌旗下CapitalG等领投,估值五个月内从18亿飙升至66亿美元,增长266%,确立其在欧洲AI领域的核心地位。
GPT‑5.2-Codex正式发布,成为智能编码领域里程碑。该模型基于GPT‑5.2架构深度优化,融合GPT-5.1-Codex-Max终端操作专长,旨在解决复杂软件工程与网络安全难题。其核心突破在于长程任务执行能力,通过原生上下文压缩技术,显著提升处理大规模代码的效率和准确性。
Meta发布SAM Audio,全球首个统一多模态音频分离模型。用户可通过点击视频中物体、输入关键词或圈定时间片段,一键提取目标声音或过滤噪音,实现“用眼睛听声音”。该技术首次模拟人类自然感知声音的方式,支持看、说等多种交互。
美的集团旗下美的医疗推出自主知识产权“医学影像多模态智能诊断大模型”,实现AI医疗关键突破。该模型可一次性自动检测肺结核、肺炎、气胸、骨折等常见胸部疾病,并生成结构化诊断报告,显著提升基层医疗机构阅片效率与诊断一致性。

AI模型在科学推理能力评估方面取得重要进展,已在国际数学和信息学奥林匹克竞赛中表现优异。随着GPT-5等先进模型的发展,AI正有效加速真实科学研究进程,展现出强大的假设提出、测试修正及跨领域综合能力。

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、OpenAI推出全新图像生成模型GPTImage1.5,性能显著提升!8、谷歌实验室推出AI助手CC:集成Gemini技术,打造智能“日程管家”谷歌实验室推出了基于Gemini技术的全新AI助手CC,通过深度整合谷歌生态系统,帮助用户实现全自动化的日程梳理与任务管理。