来源:AICG工具箱 责编:网络 时间:2025-05-30 16:00:57
6月28日报道 | 微软研究人员在人工智能领域的创新之一是ZeRO++,一种旨在优化大型模型训练的系统。大规模模型如Turing-NLG、ChatGPT和GPT-4的训练需要跨多个GPU设备的大量内存和计算资源。为了克服ZeRO在小批量和低带宽集群训练中的限制,DeepSpeed团队开发了ZeRO++,它在现有的ZeRO优化基础上引入了增强的通信策略。
ZeRO系列优化使用集体GPU内存和计算能力进行模型状态的跨GPU划分,而不是复制。然而,在训练过程中,ZeRO可能会导致较高的通信开销。为了解决这个问题,ZeRO++结合了三个通信优化策略:量化权重通信(qwZ)、分层权重划分(hpZ)和量化梯度通信(qgZ)。
ZeRO++采用了权重量化,利用基于块的量化来降低参数通信量,并保持训练精度。通过在每台机器内维护完整的模型副本来交换GPU内存进行通信,最大限度地减少了反向传播期间的通信开销。对于梯度通信,ZeRO++引入了qgZ,一种新颖的量化梯度通信范例,可以减少跨节点流量和延迟。
这些通信优化使通信量显著减少,ZeRO++相较于ZeRO的减少量可达到4倍,从而提高了训练吞吐量和效率。当每个GPU使用小批量大小时,在高带宽集群中,ZeRO++的吞吐量比ZeRO-3提高了28%到36%。与ZeRO-3相比,ZeRO++在低带宽集群中平均加速了2倍,使得大型模型训练更容易在更广泛的集群中进行。
除了训练场景,ZeRO++还可以扩展到使用人类反馈(RLHF)训练的强化学习对话模型中。通过与DeepSpeed-Chat的集成,RLHF训练可以受益于改进的生成和训练阶段,实现比ZeRO更高的生成吞吐量(高出2.25倍)和训练吞吐量(高出1.26倍)。
DeepSpeed发布了ZeRO++,使得大型模型训练更加高效,并可供AI社区使用。这一系统旨在加速训练、减少通信开销,并实现更大的批量,最终节省时间和资源。研究人员和从业者可以利用ZeRO++更有效地训练ChatGPT等模型,并探索人工智能的新可能性。
自 SD 系列教程发布这几个月,已被大家多次催更 ControlNet 的教程,ControlNet 到底是什么?为什么作为一款插件它可以引起如此多的热议?究竟该如何正确使用?今天的文章我将为你娓娓道来关于 ControlNet 的起源介绍、安装方法和使用技巧。
本地SD部署速度一直被大家诟病,本次视频就给大家分享Tensorrt插件是如何秒变“5090”,让你的显卡生图速度提升4倍!
【2023年11月22日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
7 月 11 日消息,美图秀秀官方微博今日发文,称“AI 扩图”功能现已上线,美图秀秀 App 和 Wink App 均可以立刻体验 AI 扩图功能。功能使用门槛更低、生成效果更好,比PhotoShop、Midjourney等工具更适合中国宝宝体质。
TensorRT插件安装_TensorRT插件怎么提升SD生图速度_stable diffusion插件
阿里“通义听悟”升级:支持6小时超长视频内容解析提问,还可一键生成巨幅思维导图
苹果与OpenAI合作,发布新版Siri与生成式AI功能丨马斯克宣布将禁用iPhone丨OpenAI百万年薪挖角谷歌芯片人才
华为HDC 2024大会将发布盘古大模型5.0丨谷歌Gemini手机版将迎来多项功能更新丨马斯克xAI计划融资60亿美元
谷歌推出通用AI代理SIMA丨目前可以自动执行600多种动作,游玩复杂3D游戏
OpenAI CEO奥特曼最新讲话汇总,再次曝光GPT-5细节:性能飞跃超乎想象,低估它的人都会被吓傻
李开复:最好的AI大模型已经达到人类平均智商的三倍,“杀手级应用”已经出现
重磅!英伟达正式官宣「AI核弹级」芯片B100,性能比H100强两倍的H200将于2024年第二季度出货
面对Sora训练数据来源一问三不知!OpenAI遭遇成立以来最为惨烈的公关灾难
英伟达发布AI算力芯片B200丨高通发布第三代骁龙8s处理器丨李开复:目前最好的大模型已达人类平均IQ的三倍