谷歌升级Gemini2.5Flash音频模型,实现AI拟人化实时交流。新模型能直接处理声音中的语调、情感和停顿,无需先转文字,使对话更自然流畅。
谷歌Gemini2.5Flash Native Audio更新显著提升语音助手功能,能更准确处理复杂指令,使对话更自然流畅。开发者指令遵循率从84%提升至90%,多步骤对话质量也明显改善。
谷歌AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型,支持自然语言指令实现去背景、主体分离和场景替换,可生成8秒动态镜头。面向免费及以上用户开放,单张处理0.039美元,企业版同步上线Vertex AI。用户上传图片后输入提示词,即可获得PNG透明图或合成效果图。
谷歌DeepMind发布多模态智能体SIMA2,基于Gemini2.5Flash-lite模型,任务成功率较前代提升约一倍。新版本能在陌生环境中执行复杂指令,具备自我改进能力,通过引入自生成数据循环机制:系统调用独立Gemini模型在新场景中批量生成任务。目前以研究预览形式发布,旨在验证实现通用人工智能所需的高阶世界理解与推理能力。