AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航 MCP

谷歌DeepMind 2023年AI技术进展总结

新智元

发布于AI新闻资讯 · 1 分钟阅读 · Dec 25, 2023

文章总结了2023年谷歌在AI技术与产品方面的最新进展。包括发布语言模型PaLM 2、多模态系统Gemini,以及在气候预测、医疗检测、量子计算等多个领域取得重要突破。此外,谷歌还推出了AI安全基准测试,与业内重要机构展开合作。展望未来,谷歌AI研究仍在持续推进,预计会在更多领域实现技术革新。

深度学习模型多模态自然语言处理

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

纳米AI超级搜索智能体炸裂升级！一键生成PPT、视频、口播稿，医学科研也能秒搜

360公司旗下纳米AI超级搜索智能体迎来重大更新，新增多模态内容生成、跨领域专业搜索以及更智能的任务预览功能。从一键生成PPT、PDF报告到自动整合视频、口播稿和分镜规划，纳米AI以更高效、更直观的体验，重新定义了AI搜索与创作的边界。AIbase综合整理最新社交媒体动态，带您深入了解纳米AI的最新突破。多模态生成:从PPT到视频一键搞定纳米AI超级搜索智能体此次升级的最大亮点是多模态结果生成，支持生成PPT、PDF报告、网页和视频等多种格式。用户只需输入简单提示词，系统即可

2025年6月13号 17:11

2.4k

科学家揭示大语言模型 “理解” 世界的新方式，堪比人类！

据科技日报报道，中国科学院自动化研究所的科研人员近期取得了重要突破。他们首次证实，多模态大语言模型在训练过程中能够自发 “理解” 事物，其理解方式与人类的认知非常相似。这一发现不仅为我们探索人工智能的思维机制开辟了新路径，还为未来开发能够像人类一样理解世界的人工智能系统奠定了基础。这项研究成果已在《自然・机器智能》杂志上发表。理解是人类智能的核心。当我们看到 “狗” 或 “苹果” 时，除了能够识别其外观特征，如大小、颜色和形状，我们还理解

2025年6月11号 9:08

1.7k

突破传统！FUDOKI 模型让多模态生成与理解更灵活、更高效

近年来人工智能领域发生了翻天覆地的变化，尤其是大型语言模型（LLMs）在多模态任务上取得了显著进展。这些模型在理解和生成语言的能力上展现出了强大的潜力，但目前大多数多模态模型依然采用自回归(AR)架构，推理过程较为单一、缺乏灵活性。为此，香港大学和华为诺亚方舟实验室的研究团队提出了一种全新的模型 ——FUDOKI，旨在打破这一局限。FUDOKI 的核心创新在于其全新的非掩码离散流匹配（Discrete Flow Matching）架构。与传统的自回归模型不同，FUDOKI 通过并行去噪机制，能够实

2025年6月10号 18:01

2.9k

OpenAI 升级 ChatGPT 语音模式，体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上，再次对其高级语音模式进行了重大的更新，使得语音交流变得更加自然和贴近人类的对话方式。这一先进的功能依托于原生的多模态模型，能够快速响应音频输入，最快在232毫秒内作出反应，平均响应时间为320毫秒，几乎与人类的对话速度不相上下。在今年年初，OpenAI 已经对这一语音模式进行了小幅更新，改善了打断频率和口音处理。而此次的重大升级，更是使语音回复的语调变得更加细腻、节奏更加自然，尤其是在停顿和强调的处理上，显得更加生动。

2025年6月9号 10:01

2.2k

Gemini2.5版本发布原生音频功能，AI 对话更加自然

在最近的开发更新中，谷歌更新了 Gemini2.5版本，标志着 AI 音频对话和生成技术的重大进步。Gemini2.5是一个多模态的 AI 系统，能够原生理解和生成文本、图像、音频、视频和代码，提升了用户与 AI 的互动体验。Gemini2.5的实时音频对话功能使得人机交流变得更加自然。人类的对话往往涉及语调、口音以及非语言的声音（如笑声），这些细节都能通过 Gemini 的音频生成技术得到体现。其低延迟的特点使得交流流畅自然，用户可以通过自然语言调整对话的风格，如选择不同的口音和语气，甚至可

2025年6月5号 17:39

3.8k

NVIDIA放大招！Llama-Nemotron-Nano-VL-8B-V1发布，图像视频文本全能，微调王座谁与争锋？

人工智能领域的竞争日趋白热化，NVIDIA再次以其强大的技术实力引领潮流。AIbase从社交媒体平台获悉，NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1，一款支持图像、视频和文本输入的视觉到文本模型，输出高质量文本并具备图像推理能力。这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心，也为开发者提供了高效的轻量化解决方案。本文将为您详细解析这款模型的亮点及其对AI生态的影响。多模态突破，支持图像、视频与文本输入Llama-3.1-Nemotron-Nano-VL-8B-V1是NVIDIA基于Llama-3.1架构开发的一款

2025年6月5号 14:39

2.8k

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

松下控股公司（Panasonic HD）联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员，成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力，可以实现文本、图像和音频之间的自由转换，极大地提升了多模态生成 AI 的应用潜力。近年来，多模态生成 AI 的研究越来越受到关注，尤其是结合音频的生成技术。然而，传统方法在数据获取上存在局限，尤其是在同时处理文本、图像和音频数据时，所需的训练数据量和成本大幅增加。针对

2025年6月4号 15:08

4.2k

Captions 发布 Mirage Studio：快速生成具有真实情感和动作的虚拟角色视频

Captions 正式推出其首款创新产品 Mirage Studio，这是一款基于全新多模态基础模型 Mirage 开发的视频生成工具，旨在为创意团队提供突破性的视频制作解决方案。该产品以其高度逼真的虚拟角色生成能力和广泛的应用潜力，标志着人工智能在视频内容创作领域的重大进步。Mirage Studio 的核心功能是能够根据单张人物照片快速生成虚拟演员视频。这些虚拟角色不仅在外貌上高度还原，还能呈现出细腻的面部表情，如皱眉、微笑、惊讶等，显著增强了视频的情感真实感和观众共鸣。此外，Mirage Stud

2025年6月3号 17:46

4.4k

通义开源视觉感知多模态RAG推理框架VRAG-RL

近日，通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架，旨在解决在真实业务场景中，AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化推理的难题。在复杂视觉文档知识库中检索并推理关键信息，一直是AI领域的一大挑战。传统的检索增强型生成（RAG）方法在处理视觉丰富信息时显得力不从心，主要因为它们难以应对图像、图表等视觉内容，且现有视觉RAG方法受限于固定的检索-生成流程，难以充分挖掘视觉信息中的关键知识。

2025年5月31号 9:33

6.4k

AI日报：阿里云通义灵码AI IDE上线；小米多模态大模型Xiaomi MiMo-VL开源；黑森林实验室推出FLUX.1Kontext

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阿里云通义灵码 AI IDE 正式上线，带来编程新体验阿里云推出了通义灵码 AI IDE，这款深度适配千问3的人工智能开发环境具备强大的编程智能体模式、长期记忆和行间建议预测功能，同时提供行间对话功能，显著提升开发效率，已成为国内最受欢迎的编程辅助工具之一。【AiBase提要:】🚀 AI IDE

2025年5月30号 15:27

9.3k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图