谷歌发布多模态大模型 Gemini 1.0 预计明年初向开发者推出

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。这种跨模态感知能力为内容创作提供了极大的灵
谷歌Gemini2.5Pro视频理解能力再升级,这款旗舰AI模型不仅支持长达6小时的视频分析,还拥有高达200万Token的超大上下文窗口,同时首次实现通过API直接解析YouTube链接。官方数据显示,该模型在VideoMME基准测试中达到84.7%的准确率,与行业顶尖水平的85.2%仅有一线之差,彰显了其强劲实力。这项突破性技术现已通过Google AI Studio向开发者开放体验。Gemini2.5Pro凭借其庞大的上下文窗口,实现了一次性处理约6小时视频内容的能力(以每秒1帧采样,每帧66个Token计算)。开发者现在可通过简单的API调用
谷歌最近宣布,将推出其新的 Gemini 人工智能(AI)聊天机器人,专门面向13岁以下的儿童。这个新产品将在未来一周内在美国和加拿大上线,预计今年晚些时候也会在澳大利亚推出。值得注意的是,这款聊天机器人将仅通过谷歌的家庭链接账户提供,这意味着家长可以对儿童的使用进行一定的控制。在设置儿童账户时,家长需要输入孩子的姓名和出生日期,这可能会引发关于隐私和数据安全的担忧。谷歌则表示,使用该系统时收集的儿童数据不会用于训练 AI 系统。但需要特别留意的是,聊
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。业内分析认为,这一现象可能源于谷歌在模型迭代
Barracuda Networks 近日发布了其新一代的威胁检测技术,利用多模态人工智能(AI)提升对网络攻击的防护能力。这项技术能够实时分析并关联多种数据类型,包括网址、文档、图像和二维码,从而最大限度地提高威胁检测的准确性和速度。Barracuda 表示,最新的多模态 AI 整合了其现有的人工智能和机器学习能力,使系统能够并行处理和解读多条数据流。通过结合机器学习分类器和专用的沙箱引擎,这一升级显著提升了安全性能。公司报告称,这项技术使恶意文件的检测数量增加了三倍,检测
Gemini API推出隐式缓存(Implicit Caching)功能,为开发者带来显著的成本优化体验。新功能无需开发者手动创建缓存,当请求与先前请求共享共同前缀时,系统将自动触发缓存命中,提供高达75%的Token折扣。此更新已覆盖Gemini2.5Pro和2.5Flash模型,进一步提升了AI开发的成本效益。官方详情可参考:https://developers.googleblog.com核心机制:自动缓存与动态折扣隐式缓存功能通过识别请求中的共同前缀,自动复用先前处理过的上下文数据,减少重复计算的Token消耗。例如,开发者在构建聊天机器人或代码分
英伟达在技术界引起广泛关注,正式发布了其最新的 Open Code Reasoning(OCR)模型套装。这一模型的推出,不仅展示了英伟达在人工智能领域的创新能力,也为开发者提供了强有力的工具,助力他们在代码推理和生成任务中取得更好的成绩。** 模型参数与架构:多样化选择 **英伟达的 OCR 模型套装共包含三种不同参数规模,分别为32B、14B 和7B。这些模型均基于 Nemotron 架构进行训练,Nemotron 是一种为多语言和多任务学习优化的 Transformer 框架。这种架构的设计旨在提升模型的推理能力和适应性,使
在过去的两年里,人工智能领域的关注点逐渐转向了大模型的技术发展,而商汤科技作为一家成立不到十年的公司,凭借其在计算机视觉领域的技术积累,正迅速转型,迎接这一浪潮。尽管在2023年之前,商汤主要聚焦于视觉模型,但随着 DeepSeek R1的发布,市场的重心开始向自然语言处理和大规模参数模型倾斜,商汤的策略也随之调整。商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”,展现了强大的综合能力,与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。商汤不仅成功
近日,OpenAI 在其帮助中心发布了针对企业用户的全新指南,详细说明了其多种人工智能模型的最佳使用时机。这一举措旨在帮助用户根据不同的任务需求,选择最合适的 AI 模型,从而提升工作效率和成果质量。OpenAI 的最新订阅计划 ——ChatGPT Enterprise,提供了企业级的安全与隐私保护,同时允许用户无限制地高速访问其先进的 GPT-4o 和 OpenAI o3推理模型。用户还可以利用深度研究、数据分析、文件上传、项目搜索等多项原生工具,满足多样化的需求。根据官方指南,GPT-4o 模型非常适合日常
在短视频已经成为亿万用户日常生活的重要组成部分的今天,它不仅仅是一种娱乐方式,更是人们获取信息、表达观点和进行社交的主要渠道。随着短视频内容的爆炸式增长,各大平台正面临前所未有的挑战:一方面需要高效识别和管理内容,另一方面则需要精准地将优质内容推送给真正感兴趣的用户。为了解决这些问题,快手作为国内领先的短视频平台,推出了基于多模态大模型的创新方案 KuaiMod,旨在优化短视频平台生态并提升用户体验。KuaiMod 的核心在于其对短视频内容的质量判别。