斯坦福最新PIGEON模型:AI猜图位置准确率超90%
新智元
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
Blender基金会2025年用户调查显示,在5102名专业3D创作者中,超过半数受访者目前未在工作中使用AI工具,社区对AI的渗透率远低于预期,表明该群体仍高度依赖传统“手工”创作方式。

OpenAI为移动端ChatGPT应用新增“思考时长”功能,用户可调节AI思考深度,提升复杂问题处理能力。此前安卓版仅支持快速响应的标准模式,此次更新旨在统一移动与桌面端体验。

OpenAI更新安卓和iOS版ChatGPT应用,新增“思考时长”调节功能,用户可灵活选择AI思考深度。此前安卓版仅支持“标准”模式,响应快但复杂推理能力有限。更新后移动端用户能根据需求调整,提升分析深度。

阶跃星辰开源320亿参数深度研究模型Step-DeepResearch,能在开放环境中自主探索信息并生成专业报告。其研究能力接近OpenAI o3-mini等顶级商业模型,但部署成本仅为传统模型的十分之一,单次调用成本低于0.5元人民币。

Meta AI发布Pixio图像模型,通过改进MAE框架,证明简单训练路径在深度估计和3D重建等任务中性能卓越,挑战了MAE逊于DINOv2等复杂算法的传统认知。

元宝平台2025年报告显示,混元大模型实现AI能力多维度升级。平台提供“快思考”与“深度思考”两种模式:超七成用户选择“快思考”,近半数问题首轮即可解决;“深度思考”适用于复杂场景,对话通常持续三轮以上,近半数能输出多步骤结构化内容。图像交互方面,混元T1-Vis模型于5月上线。

圣诞节当天,边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp,仅26亿参数,却在多项基准测试中表现优异,指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528,被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型,通过纯强化学习实现实验性突破。

小红书与复旦大学联合发布AI绘画新技术InstanceAssemble,解决AI绘画“构图难”问题,实现从简单到复杂场景的精准图像生成。相关论文已被顶级会议NeurIPS2025收录。
阿里云通义实验室开源图像编辑模型Qwen-Image-Edit-2511,重点优化前代版本存在的编辑后图像“轻微漂移”问题,通过技术改进提升编辑一致性与视觉稳定性,为开发者提供更精准可靠的可控生成工具。

小红书开源可控图像生成框架InstanceAssemble,专为高密度、多对象、复杂空间关系的图像生成任务设计。该框架通过级联建模与Assemble-Attention机制,在仅增加极低参数的情况下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计等场景提供工业级解决方案。