解锁任意模态AI模型训练，字节跳动Seed开源VeOmni框架

来源：AICG工具箱责编：网络时间：2025-09-01 09:01:01

8月14日消息，字节跳动Seed团队今日发布并开源了全模态PyTorch原生训练框架——VeOmni。

近年来，大模型技术正从单一文本模态，向包含图像、语音、视频等多种信息的“全模态”（Omni-Modal）理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型，依然面临着系统性的工程挑战。

字节跳动介绍称，VeOmni采用以模型为中心的分布式训练方案，可将复杂的分布式并行逻辑与模型计算解耦，让研究员像搭积木一样，为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销，提升训练效率和扩展性，将数周的工程开发时间缩短至几天。

此前，使用Megatron-LM等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型，往往需要一周以上进行工程研发，以及更长时间推进分布式优化和精度对齐，且耗时高度依赖于Infra工程团队的经验积累。而使用VeOmni只需一天即可完成模型代码构建，开启训练任务，工程耗时可压缩90%以上。

实验结果表明，基于VeOmni框架，一个300亿参数的全模态MoE模型（支持文本、语音、图片、视频的理解和生成），在128张卡上训练吞吐量可超过2800tokens/sec/GPU，并能轻松扩展至160K超长上下文序列。

目前，VeOmni的相关论文和代码仓库均已对外公开，GitHubStar数超过500。附开源地址：

arXiv：https://arxiv.org/pdf/2508.02317

GitHub：https://github.com/ByteDance-Seed/VeOmni

针对中国！美媒揭秘美国在AI芯片出货时偷装追踪器：英伟达AMD超微等绝口不提

猜你喜欢

常用AI 共 188 款
工具箱 共 218 款
最新消息 共 2772 款

查看更多

最新上线 更多

热门资讯 更多

最新资讯 更多