来源:AICG工具箱 责编:网络 时间:2025-09-01 09:01:01
8月14日消息,字节跳动Seed团队今日发布并开源了全模态PyTorch原生训练框架——VeOmni。
近年来,大模型技术正从单一文本模态,向包含图像、语音、视频等多种信息的“全模态”(Omni-Modal)理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型,依然面临着系统性的工程挑战。
字节跳动介绍称,VeOmni采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天。
此前,使用Megatron-LM等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于Infra工程团队的经验积累。而使用VeOmni只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩90%以上。
实验结果表明,基于VeOmni框架,一个300亿参数的全模态MoE模型(支持文本、语音、图片、视频的理解和生成),在128张卡上训练吞吐量可超过2800tokens/sec/GPU,并能轻松扩展至160K超长上下文序列。
目前,VeOmni的相关论文和代码仓库均已对外公开,GitHubStar数超过500。附开源地址:
arXiv:https://arxiv.org/pdf/2508.02317
GitHub:https://github.com/ByteDance-Seed/VeOmni
这篇文章,我想好好盘点一下从ChatGPT出现到现在,真正实用且主流的AI工具。包含大语言模型、AI PPT、AI 绘图、AI音频、AI数字人、AI视频这6个部分。
和「秋叶」一起学AI绘画,掌握Stable Diffusion、Midjourney的使用方法,开展AI绘画副业,搞钱!?
美国VC投资机构关于生成式AI的最新研究文章:哪些领域老牌企业仍然占据主导?哪些新兴公司正在崭露头角?ChatGPT之后,谁可能是下一个大赢家?
GPT-4o回归付费用户,用户体验与成本平衡成焦点。
GPT-5 翻车:OpenAI「回滚」大戏与AI扩张隐形边界
通义听悟如何使用自定义专有词汇
通义听悟如何管理发言人_通义听悟如何管理发言人使用方法
通义听悟如何将音视频文件转文字
春节前后罗永浩将发布一款AI软件丨马斯克xAI完成新一轮60亿美元融资丨智谱AI×英特尔打造酷睿Ultra专享版
马斯克与奥特曼「八年的爱恨情仇」:从兄弟联手创办OpenAI,到理念不合、分道扬镳、相爱相杀、对薄公堂
AI走向太空,王坚院士最新演讲,提出“三体计算星座”全球协作倡议
DeepMind CEO定义世界模型标准:不仅理解物理世界,还能创造它
没有杀手级AI应用,李彦宏靠什么扳回一城?
硅谷换血: 大模型时代为何华人取代了印度工程师?