Meta发布AI视频模型V-JEPA,以人类方式看世界

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
生数科技正式推出Vidu Q1,一款高性能生成式AI视频模型,以其极致的视觉质量、流畅的电影级过渡、精准音效和增强的动画风格引发行业热议。据AIbase了解,Vidu Q1在VBench综合视频生成评估标准中超越了现有竞品,凭借四大核心功能的全面升级,为创作者提供了媲美专业影视工作室的创作体验。项目详情已在Vidu官网与社交平台公布,标志着AI视频生成技术的新里程碑。核心功能:四大升级赋能沉浸式创作Vidu Q1通过技术突破实现了从视觉到听觉的全面优化。AIbase梳理了其四大核心功能: 极致画
Meta 人工智能研究副总裁乔尔·皮诺(Joelle Pineau)周二通过 Facebook 帖子宣布,她将于5月离职,结束她在 Meta 的职务。皮诺自两年前起担任 Meta 人工智能研究实验室(FAIR)主管,领导该实验室在人工智能领域的前沿研究。FAIR 是由著名科学家 Yann LeCun 领导的 Meta 内部核心研究团队。皮诺的离职正值 Meta 加大对人工智能领域的投入之际。该公司计划在2025年向人工智能基础设施投资650亿美元,进一步巩固其在全球 AI 研究和应用的领先地位。Meta 发言人在接受彭博新闻社采访时表示,虽然公司尚未确
人工智能正在以前所未有的速度撕开内容创作行业的围墙。曾几何时,高质量内容制作是资源雄厚的影视公司、制作机构和媒体巨头的专属领地,如今这一局面正被彻底颠覆。近日,AI驱动的视频编辑平台OpusClip从软银愿景基金2号获得2000万美元融资,公司估值攀升至2.15亿美元,这一重磅投资清晰表明:数字内容创作与分发的游戏规则正在被重写。作为AI视频编辑平台,OpusClip自成立以来呈现出惊人的增长势头。联合创始人兼CEO杨昭(Young Zhao)透露:"我们目前已服务全球超过1000万创作者和品牌
阿里巴巴旗下“通义”品牌宣布,其AI视频生成模型“通义万相Wan”正式推出独立网站,标志着其生成式AI技术的重大进展。新网站现已开放,用户可直接登录体验“文本生成视频”和“图像生成视频”功能,无需本地部署,极大降低了使用门槛。此外,每天登录网站还可获赠积分,激励用户持续探索。“通义万象Wan”自2023年7月亮相以来不断优化,其最新版本Wan2.1在VBench排行榜上以84.7%的得分位居首位,擅长动态场景和多对象交互。依托阿里云自研的扩散变换器(DiT)架构,该模型支持中
近日,Meta AI 团队推出了视频联合嵌入预测架构(V-JEPA)模型,这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息,进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则,认为连续感官输入的表示应该能够相互预测。早期的研究方法通过慢特征分析和谱技术来保持时间一致性,防止表示崩溃。而现在的许多新方法则结合了对比学习和掩蔽建模,确保表示能
AI视频领域再迎王炸级新品!近日,Google 最新一代 AI 视频模型 Veo2正式发布,并选择在知名素材平台 Freepik 全球首发。 此次发布不仅标志着 Google 在 AI 视频技术上的又一次重大突破,更令人惊喜的是,前10000名用户还能免费体验这款 “黑科技” ,无疑给视频创作者们送上了一份重磅福利!根据官方推文信息,Veo2被誉为 Google “最先进的 AI 视频模型”,其核心卖点在于 无与伦比的真实感、精确度和流畅的动画效果。 这意味着, Veo2生成的视频将更加逼真自然,细节更丰富,运动更流畅,彻底
近日,Meta 的 AI 首席科学家 Yann LeCun 领导的一项研究揭示了人工智能如何通过观看视频来培养基本的物理学理解。这项研究由 Meta FAIR、巴黎大学及 EHESS 的科学家们共同完成,显示出 AI 系统能够在没有预设规则的情况下,通过自我监督学习获得直观的物理知识。研究团队采用了一种名为视频联合嵌入预测架构(V-JEPA)的新方法,与 OpenAI 的 Sora 等生成型 AI 模型相比,V-JEPA 的工作原理更接近人脑的信息处理方式。V-JEPA 并不追求生成完美的像素预测,而是专注于在一个抽象的表示空间中进行
在视频生成领域,尽管近年来取得了显著的进展,但现有的生成模型仍然难以真实地捕捉到复杂的运动、动态和物理现象。这种局限性主要源于传统的像素重构目标,这种方法往往偏向于提高外观的真实感,而忽视了运动的一致性。为了解决这一问题,Meta 的研究团队提出了一种名为 VideoJAM 的新框架,它旨在通过鼓励模型学习联合外观 - 运动表示,来为视频生成模型注入有效的运动先验。VideoJAM 框架包含两个互补的单元。在训练阶段,该框架扩展了目标,使其同时预测生成的像素和对应的
AI 媒体科技公司 Runway 宣布推出其最新的文本生成图像模型 ——Frames。作为一家以 AI 视频模型闻名的公司,Runway 此举意在扩展其在图像创作领域的影响力。Frames 的推出,获得了用户的广泛好评,尤其在生成电影般的视觉效果方面,备受赞誉。该模型在2024年11月首次公布,并在过去几周内先行供给 Runway 创作者计划的用户进行体验,现已向所有订阅用户开放。Frames 的使用需通过 Runway 的无限计划或企业计划进行订阅,月费为95美元,年度订阅则为912美元,而企业计划的年费为1500美元。用户
Meta公司AI研究负责人Yann LeCun近日在接受采访时表示,当前的AI系统并不如一些研究人员所宣传的那样强大。他指出,人工智能的真正理解、规划和推理能力依然不足,需要多次“概念性突破”才能实现类人智能。图源备注:图片由AI生成,图片授权服务商MidjourneyLeCun批评OpenAI和Google DeepMind对AI的乐观态度过于夸大,认为人类智能AI在未来5年内显然不可能实现。LeCun提到,当前的AI更多依赖文本训练,但这种方式获取的信息十分有限。他提出,下一代AI系统需要具备情感能力,以便更好地设定目