文章总结了2023年谷歌在AI技术与产品方面的最新进展。包括发布语言模型PaLM 2、多模态系统Gemini,以及在气候预测、医疗检测、量子计算等多个领域取得重要突破。此外,谷歌还推出了AI安全基准测试,与业内重要机构展开合作。展望未来,谷歌AI研究仍在持续推进,预计会在更多领域实现技术革新。
相关AI新闻推荐

纳米AI超级搜索智能体炸裂升级!一键生成PPT、视频、口播稿,医学科研也能秒搜
360公司旗下纳米AI超级搜索智能体迎来重大更新,新增多模态内容生成、跨领域专业搜索以及更智能的任务预览功能。从一键生成PPT、PDF报告到自动整合视频、口播稿和分镜规划,纳米AI以更高效、更直观的体验,重新定义了AI搜索与创作的边界。AIbase综合整理最新社交媒体动态,带您深入了解纳米AI的最新突破。多模态生成:从PPT到视频一键搞定纳米AI超级搜索智能体此次升级的最大亮点是多模态结果生成,支持生成PPT、PDF报告、网页和视频等多种格式。用户只需输入简单提示词,系统即可

科学家揭示大语言模型 “理解” 世界的新方式,堪比人类!
据科技日报报道,中国科学院自动化研究所的科研人员近期取得了重要突破。他们首次证实,多模态大语言模型在训练过程中能够自发 “理解” 事物,其理解方式与人类的认知非常相似。这一发现不仅为我们探索人工智能的思维机制开辟了新路径,还为未来开发能够像人类一样理解世界的人工智能系统奠定了基础。这项研究成果已在《自然・机器智能》杂志上发表。理解是人类智能的核心。当我们看到 “狗” 或 “苹果” 时,除了能够识别其外观特征,如大小、颜色和形状,我们还理解

突破传统!FUDOKI 模型让多模态生成与理解更灵活、更高效
近年来人工智能领域发生了翻天覆地的变化,尤其是大型语言模型(LLMs)在多模态任务上取得了显著进展。这些模型在理解和生成语言的能力上展现出了强大的潜力,但目前大多数多模态模型依然采用自回归(AR)架构,推理过程较为单一、缺乏灵活性。为此,香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型 ——FUDOKI,旨在打破这一局限。FUDOKI 的核心创新在于其全新的非掩码离散流匹配(Discrete Flow Matching)架构。与传统的自回归模型不同,FUDOKI 通过并行去噪机制,能够实

OpenAI 升级 ChatGPT 语音模式,体验更自然对话
OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。而此次的重大升级,更是使语音回复的语调变得更加细腻、节奏更加自然,尤其是在停顿和强调的处理上,显得更加生动。

Gemini2.5版本发布原生音频功能,AI 对话更加自然
在最近的开发更新中,谷歌更新了 Gemini2.5版本,标志着 AI 音频对话和生成技术的重大进步。Gemini2.5是一个多模态的 AI 系统,能够原生理解和生成文本、图像、音频、视频和代码,提升了用户与 AI 的互动体验。Gemini2.5的实时音频对话功能使得人机交流变得更加自然。人类的对话往往涉及语调、口音以及非语言的声音(如笑声),这些细节都能通过 Gemini 的音频生成技术得到体现。其低延迟的特点使得交流流畅自然,用户可以通过自然语言调整对话的风格,如选择不同的口音和语气,甚至可

NVIDIA放大招!Llama-Nemotron-Nano-VL-8B-V1发布,图像视频文本全能,微调王座谁与争锋?
人工智能领域的竞争日趋白热化,NVIDIA再次以其强大的技术实力引领潮流。AIbase从社交媒体平台获悉,NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1,一款支持图像、视频和文本输入的视觉到文本模型,输出高质量文本并具备图像推理能力。这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心,也为开发者提供了高效的轻量化解决方案。本文将为您详细解析这款模型的亮点及其对AI生态的影响。多模态突破,支持图像、视频与文本输入Llama-3.1-Nemotron-Nano-VL-8B-V1是NVIDIA基于Llama-3.1架构开发的一款

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换
松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。然而,传统方法在数据获取上存在局限,尤其是在同时处理文本、图像和音频数据时,所需的训练数据量和成本大幅增加。针对

Captions 发布 Mirage Studio:快速生成具有真实情感和动作的虚拟角色视频
Captions 正式推出其首款创新产品 Mirage Studio,这是一款基于全新多模态基础模型 Mirage 开发的视频生成工具,旨在为创意团队提供突破性的视频制作解决方案。该产品以其高度逼真的虚拟角色生成能力和广泛的应用潜力,标志着人工智能在视频内容创作领域的重大进步。Mirage Studio 的核心功能是能够根据单张人物照片快速生成虚拟演员视频。这些虚拟角色不仅在外貌上高度还原,还能呈现出细腻的面部表情,如皱眉、微笑、惊讶等,显著增强了视频的情感真实感和观众共鸣。此外,Mirage Stud

通义开源视觉感知多模态RAG推理框架VRAG-RL
近日,通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架,旨在解决在真实业务场景中,AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化推理的难题。 在复杂视觉文档知识库中检索并推理关键信息,一直是AI领域的一大挑战。传统的检索增强型生成(RAG)方法在处理视觉丰富信息时显得力不从心,主要因为它们难以应对图像、图表等视觉内容,且现有视觉RAG方法受限于固定的检索-生成流程,难以充分挖掘视觉信息中的关键知识。

AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里云通义灵码 AI IDE 正式上线,带来编程新体验阿里云推出了通义灵码 AI IDE,这款深度适配千问3的人工智能开发环境具备强大的编程智能体模式、长期记忆和行间建议预测功能,同时提供行间对话功能,显著提升开发效率,已成为国内最受欢迎的编程辅助工具之一。【AiBase提要:】🚀 AI IDE