12月19日,谷歌发布了视频生成模型VideoPoet。该模型可以生成时长达10秒的视频,同时还可以根据视频内容自动生成配乐音效。VideoPoet通过重复预测视频最后一帧的下一帧内容来延长视频,让用户感觉视频可以无限延长。与其他模型不同的是,VideoPoet使用的是大语言模型而非扩散模型,因此将文本到视频、视频修复、视频风格化等多种功能集成到同一个模型中,使用更加灵活。
相关AI新闻推荐

Stream-Omni:同时支持各种模态组合交互,开启文本、视觉、语音结合
中科院计算所推出Stream-Omni多模态大模型,支持文本、视觉、语音三种模态交互。创新采用针对性模态对齐技术,减少对大规模三模态数据的依赖,实现语音与文本的实时转换。模型支持任意模态组合,在视觉理解和语音交互方面表现优异,虽在拟人化方面有待改进,但为多模态智能交互提供了新思路。相关论文和代码已开源。

AI日报:B站或将推“代号H” AI创作工具;智元发布哪吒机器人灵犀X2-N;宇树科技冲刺科创板IPO
【AI日报速览】B站将推"代号H"AI工具助力视频播客创作;智元发布双形态切换机器人灵犀X2-N;宇树科技冲刺科创板IPO获120亿估值;开源模型EarthMind革新地球数据分析;Gemini CLI更新音视频处理功能;macOS助手Glass开源爆火;Claude将发布数学超强新模型Neptune v3;OpenAI宣布GPT-5将整合多模型实现突破。AI领域持续创新,涵盖创作工具、机器人、大模型等多个方向。

AI明星教学视频:零成本打造“侃爷”讲代数,百万流量轻松变现
【140字概括】该文介绍利用AI工具生成名人形象教学视频的变现模式。核心步骤包括:选题策划、编写脚本、使用HeyGen等AI工具生成名人授课视频、简单剪辑后发布到短视频平台。优势在于低成本撬动名人效应流量,可通过广告分成、知识付费等方式变现。需注意肖像权风险,建议使用合规素材并标注AI生成。适合有剪辑基础、熟悉自媒体运营的创作者操作。

OpenAI 宣布 GPT-5将整合多种模型,实现全新突破
OpenAI宣布将于今夏推出GPT-5,整合现有多个模型功能。新版本将融合"O系列"的推理能力和GPT系列的多模态优势,显著提升整体性能。此举旨在解决用户在不同模型间切换的困扰,提供更流畅的使用体验。OpenAI高管透露,GPT-5将使现有模型功能更强大、操作更便捷,但具体发布时间尚未明确。

B站推出“代号H”AI创作工具,全面发力视频播客
B站将重点发展视频播客业务,推出"代号H"AI创作工具,支持音频自动转视频。扶持政策包括流量扶持、免费录制场地和AI工具三大措施。该工具可6分钟内将千字内容转为视频,未来有望提速至3分钟,目前测试反馈良好。

Gemini CLI重磅更新!音视频处理+隐私新功能,开发者福音来了!
谷歌开源命令行工具Gemini CLI发布重大更新,新增音视频处理、Markdown增强和隐私保护功能。该版本由51位贡献者完成85项改进,支持VSCodium/Neovim编辑器集成,升级至Ink6和React19框架,优化了稳定性和安全性。作为Apache2.0许可项目,Gemini CLI提供百万token免费额度,重新定义终端AI交互方式,未来计划探索离线模型支持。

开源多模态大模型 EarthMind:革新地球观测数据分析的利器
意大利、德国研究团队联合推出开源多模态大模型EarthMind,专为处理复杂地球观测数据设计。该模型创新性地采用空间注意力提示模块,通过交叉注意力机制精准定位目标区域,解决像素级理解难题。同时具备多模态融合能力,通过对比学习和互注意力机制整合光学与雷达数据,实现跨模态语义对齐。模型支持图像级、区域级和像素级多粒度分析,为灾害监测、城市规划等应用提供决策支持。

报道称B站即将推出 “代号 H” AI 创作工具,力推视频播客业务
B站发力视频播客领域,推出AI工具"代号H"和多项扶持政策。据Tech星球报道,B站计划暑期启动"视频播客出圈计划",帮助音频/文字创作者转型。数据显示2025年Q1视频播客消费时长达259亿分钟(同比+270%),用户超4000万。AI工具"代号H"可6分钟内将文字/音频自动生成视频,未来将提速至3分钟。B站还提供流量支持和免费场地等资源,看好垂直领域内容转型潜力。

B站AniSora V3 震撼上线:更快更高效的动漫视频生成神器
B站开源动漫视频生成模型AniSora升级至V3版本,显著提升视频质量和流畅度,支持多种动漫风格生成。基于CogVideoX-5B和Wan2.1-14B模型,结合RLHF技术优化时空掩码模块,处理复杂动画任务更出色。新增华为Ascend910B NPU支持,推理速度提升20%,4秒视频仅需2-3分钟生成。扩展1000万高质量动漫片段数据集,增强多任务处理能力,支持单帧转视频、关键帧插值等功能。在角色一致性和动作流畅度方面达到顶尖水平,为动漫创作者提供强大工具支持。

AI日报:腾讯元宝升级一句话搜索图片视频;微信支付MCP上线;谷歌在全球推出 Veo 3
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、腾讯元宝再升级:一句话搜索,图片视频即刻呈现,信息获取更直观!腾讯元宝的升级功能让信息获取更加直观和高效,用户只需一句话提问即可获得图文并茂的回答,无论是学习新技能还是解决生活难题都变得更加简单。【AiBase提要:】🧠 一句话搜索,智能匹配图片和视频号内容💡 学习新技