字节跳动开源 VeOmni 框架：提升多模态训练效率的新利器

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 14, 2025

106

近日，字节跳动宣布开源其内部开发的 VeOmni 框架，这是一款专注于多模态模型训练的统一框架。随着人工智能技术的不断发展，特别是从单一语言模型向文本、图像和视频的多模态演进，算法工程师们在训练过程中面临诸多挑战，特别是训练流程的碎片化问题。为了应对这些困扰，VeOmni 应运而生。

VeOmni 由字节跳动的 Seed 团队与火山机器学习平台共同研发，旨在实现 “统一多模态、统一并行策略和统一算力底座” 的目标。该框架通过提供统一的 API，将多种混合并行策略整合到一个框架中，支持各种模型的快速训练。无论是大规模语言模型、视觉语言模型，还是视频生成模型，开发者都可以轻松上手。

该框架具备显著的性能优化能力。例如，它通过显存计算的双优化策略，能够在保证显存充足的情况下，最大限度地减少额外计算开销。此外，VeOmni 还采用了多维并行体系，支持不同的并行原语，从而有效降低显存峰值。这些技术的结合，使得 VeOmni 在实际训练中表现出色，相比同类开源方案，其训练吞吐量提升了40% 以上。

在蒸馏加速方面，VeOmni 也展现了其强大的优势。通过集成多种前沿的蒸馏技术，用户可以显著减少模型推理所需的步骤和资源消耗，从而加速模型的部署和应用。

VeOmni 框架的开源，不仅提升了字节跳动内部模型训练的效率，也为更多的 AI 研究者和开发者提供了一个强大的工具，助力多模态 AI 技术的发展。

划重点:
🌟 VeOmni 框架是字节跳动专为多模态模型训练开发的统一框架，旨在解决训练过程中的碎片化问题。
⚡ 该框架通过显存计算和混合并行策略显著提高训练效率，训练吞吐量提升超过40%。
🚀 VeOmni 集成前沿的蒸馏技术，帮助用户减少模型推理步骤，加速模型部署。

Runway 推出全新 Gen-4.5 视频生成模型，位居 Video Arena 榜首

Runway发布最新视频生成模型Gen-4.5，专为创作者、影视制作人和企业用户设计，即将向所有订阅层级开放。该模型在文本转视频基准测试中以1247分领先，超越谷歌Veo3等竞品，成为当前最强文生视频模型。其卓越性能得益于先进的NVIDIA Hopper与Blackwell GPU平台支持。

Mistral AI发布Mistral 3系列开源模型：128K上下文、单A100可跑，定价对标 GPT-4o 一半

法国Mistral AI推出Mistral3系列模型，包括3B、8B、14B三个小型密集模型及最强的Mistral Large3，覆盖边缘设备到企业级推理全场景。新模型沿用Apache2.0开源协议，权重已上传至Hugging Face与GitHub，允许商业免费使用。该系列在保持低延迟优势的同时，将上下文长度扩展至128K，并在主流基准测试中与Llama3.1同规格模型表现相当。

DeepSeek V3.2 双模型发布：线性复杂度长文本 + 无惩罚深度思考，开源阵营再冲第一梯队

DeepSeek发布V3.2标准版与深度思考版。评测显示，V3.2在128k上下文场景下与GPT-5互有胜负；深度思考版在多项基准测试中与Gemini3Pro持平，并在IMO2025盲测中达到金牌分数线。核心升级是转正稀疏注意力技术，通过优化token路由，显著降低了长文本的计算复杂度、显存占用，并提升了推理速度，首次在开源模型中实现了百万token的单卡推理能力。

米哈游联创蔡浩宇推出"不正经"AI:会说话带喵的AnuNeko上线

米哈游联合创始人蔡浩宇创立的AI公司Anuttacon近日推出AI聊天大模型AnuNeko。该产品以黑猫为头像，主打个性化与情绪化交互，区别于主流大模型的严肃定位。其注册后自我介绍为“会思考的生物”，强调“不是助手，也不是宠物”，延续了创始人“说话带喵”的网络风格。