清华大学和哈佛大学的研究人员开发了 LangSplat,这是一种基于 3D 高斯技术的人工智能方法,用于在 3D 环境中进行开放式语言查询。LangSplat 通过独特的 3D 语言领域构建和语言嵌入技术,减少内存使用并解决点模糊问题,展示出更快的处理速度和改进的精度,推动了 3D 语言领域的发展。
相关AI新闻推荐

Shortcut横空出世!AI Excel助手10倍速碾压人类冠军,自动化任务效率飙升
近日,一款名为Shortcut的AI Excel助手在社交媒体上引发热议,其通过自然语言处理(NLP)技术,让用户无需编写复杂公式或VBA代码,即可轻松完成Excel任务。AIbase编辑团队整理了社交媒体上的最新信息,为您深度解析Shortcut的强大功能及其对数据处理和财务建模领域的潜在影响。Shortcut:自然语言驱动的Excel革命Shortcut被誉为“超人级Excel代理”(Superhuman Excel Agent),能够通过简单的自然语言指令完成复杂的Excel任务。用户只需描述需求,例如“帮我计算总销售额”或“生成月度销售趋势图”,

A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节跳动EX-4D震撼开源:单目视频秒变自由视角4D大片EX-4D是字节跳动PICO-MR团队推出的4D视频生成框架,能够从单目视频生成高质量、多视角的4D视频序列。该技术通过深度密闭网格(DW-Mesh)和轻量级适配架构,解决了传统视频生成技术在多视角生成中的挑战,并在性能指标上全面领先。【AiBase

字节跳动开源新模型VINCIE-3B:3亿参数,支持上下文连续图像编辑
字节跳动宣布开源VINCIE-3B,一款支持上下文连续图像编辑的3亿参数模型,基于其内部MM-DiT架构开发。这款模型突破了传统图像编辑的局限,首次实现从单一视频数据中学习上下文感知的图像编辑能力,无需依赖复杂的分割或修复模型生成训练数据。VINCIE-3B的发布为创意设计、影视后期及内容生成领域带来了全新的可能性。AIbase深入剖析其技术亮点、应用场景及行业影响。技术突破:从视频到上下文编辑传统图像编辑模型通常依赖任务特定的数据管道,需通过专家模型(如分割、修复)生成

Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头
Bilibili(B站)宣布其开源动漫视频生成模型AniSora迎来重大更新,正式发布AniSora V3。作为Index-AniSora项目的一部分,V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性,为动漫、漫画及VTuber内容创作者提供了更强大的工具。AIbase深入解读AniSora V3的技术突破、应用场景及行业影响。技术升级:更高质量与精准控制AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型,结合强化学习与人类反馈(RLHF)框架,显著提升了生成视频的视觉质量和动作一致性。其支持一键

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小

字节EX-4D 技术实现单目视频4D化,解锁极端视角下高质量内容生成
由研究团队 tau-yihouxiang 开发的 EX-4D(Extreme Viewpoint4D Video Generation)技术,一项颠覆传统的视频生成创新,正在全球范围内引发广泛关注。这项技术旨在将单目视频转化为可控的4D 体验,尤其在极端摄像机角度下展现出卓越的性能。EX-4D 技术的核心在于其独特的“深度水密网格”构建方法。这种新颖的几何表示方式,能够有效建模可见和被遮挡区域,并在 -90° 至90° 的广泛角度范围内生成高质量视频。这一突破为游戏、电影制作、虚拟现实(VR)和增强现实(AR)等多个领域的应用奠定了基础。

字节跳动EX-4D震撼开源:单目视频秒变自由视角4D大片
字节跳动旗下PICO-MR团队正式开源了**EX-4D**,一款突破性的4D视频生成框架。这款工具能够从单一视角(单目)视频生成高质量、多视角的4D视频序列(3D空间+时间维度),标志着视频生成技术迈向了新的里程碑。EX-4D不仅在技术指标上超越现有开源方法,还为沉浸式3D内容创作和“世界模型”构建提供了关键支持。以下是AIbase对这一前沿技术的深入解读。 **技术突破:从单目视频到自由视角**传统视频生成技术在多视角生成方面面临两大挑战:一是需要昂贵的多视角相机和数据集进行训练;二是难以

科学家们有话说!SciArena 平台上线,多维度评测大语言模型科学表现
一个名为 SciArena 的全新开放平台现已上线,旨在通过人类偏好评估大型语言模型(LLM)在科学文献任务中的表现。早期结果已揭示不同模型之间存在显著的性能差距。SciArena 由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发,旨在系统性评估专有和开源 LLM 处理科学文献任务的效果,填补了该领域系统性评估的空白。与传统基准测试不同,SciArena 效仿 Chatbot Arena 的方法,依靠真实研究人员进行评估。用户提交科学问题后,会收到两个由模型生成并引用的长格式答案,随后用

DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B
在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。DeepSWE 的开源信息可在 Hugging Face 上获取,除了模型权重外,训练方法、日志和数据集等所有相关内容也一并公开,旨在帮助开发者更深入地学习和改进这一代理系统。根据 SWE-Bench-Verified 测试结果,DeepSWE 在64k 的最大上下文长度和100的最大环境步骤下评估,经过16次运行,Pass@1准确率达

MIT 研究发现:使用 AI 写作工具或降低大脑活跃度
近日,麻省理工学院媒体实验室发布了一项新的研究,揭示了使用人工智能工具(如 ChatGPT)进行写作任务可能导致大脑活跃度降低。该研究标题为《你在使用 ChatGPT 时的大脑:使用 AI 助手进行论文写作任务时的认知债务累积》。图源备注:图片由AI生成,图片授权服务商Midjourney在这项研究中,研究人员分为三组进行实验:一组仅使用自己的大脑,另一组使用搜索引擎,最后一组使用大型语言模型(LLM),例如 ChatGPT。通过脑电图(EEG)技术,研究者测量了参与者在写作任务中的大脑活动,观察