近日,FlagScale 开源大模型并行训练及推理框架进行了全面升级,带来了多项关键性改进。
此次升级对异构混合训练进行了深入优化,新增了更通用的多维异构混合并行策略,能支持更多设备异构和 CPU 中转通信模式。
全面支持智源自研的原生多模态世界模型 Emu3 的端到端训练与推理,并开源了多模态 CFG 加速技术以及理解与生成任务优化版本。
提供了LLaVA-OneVision从数据处理到训练的全流程适配,同配置下训练效率达到DeepSpeed的1.7倍,并在千万级多模态开源指令数据集Infinity-MM进行效果验证,训练所得的Aquila-VL-2B模型,达到同规模下模型中的SOTA效果。
此外,新增自动调优功能,使得新手用户也能轻松使用FlagScale进行大规模分布式训练,并对CI/CD 系统进行了完善,支持不同训练后端的单元测试和监控各类并行策略下模型 loss 精度,保障模型的稳定性与精度。
FlagScale 是由北京智源人工智能研究院(BAAI)联合生态伙伴完全基于开源技术构建的面向多种芯片的大模型端到端框架,在确保模型效果的同时,最大化计算资源的效率。通过提供模型开发、训练和部署等关键组件,FlagScale致力于成为优化大型模型工作流程效率与效果的必备开源工具包。
Github地址:
https://github.com/FlagOpen/FlagScale.git
Part.01
异构混合训练重磅升级,支持CPU中转通信模式
该策略支持多种不同芯片之间的异构混合训练,能够在数据并行、张量并行、流水线并行等多个维度上实现异构混训,从而实现在不同硬件配比下进行更精细的任务负载均衡划分,确保各类设备在混训中充分发挥自身优势,实现资源的最大化利用。在实际测试中,多维混合异构并行相比于单维混合异构并行在特定实验中表现出约18%的性能优势。
该模式可以作为跨芯片RDMA直连通信模式的参考基线,同时也能为用户在缺乏异构通信库的情况下提供兜底方案。为了尽量减少CPU中转通信的开销,我们引入了“局部通信组+全局通信组”的设计。通过这种技术能进一步提高跨芯片通信效率并减少系统资源消耗。
Part.02
端到端支持Emu3训推,开源多模态CFG加速技术
通过对智源自研的多模态世界模型Emu3的原生支持和深度优化,FlagScale能端到端实现Emu3的大规模训练与推理部署,可支持高达131K的超长上下文高效训练需求。同时,与九鼎平台合作,通过自动容错训练技术,保障了Emu3模型在长时间大规模稳定训练。本次升级也开源了Emu3模型推理所需的CFG (Classifier-Free Guidance) 加速技术以及理解与生成代码的推理优化版本 (更多相关技术将会逐步开源)。
Emu3:
https://arxiv.org/abs/2409.18869
CFG 是扩散模型中提升图像生成内容质量与细节的重要技术,在Emu3、LlamaGen 和 EleutherAI 等研究中也表明它也能有效作用于自回归模型的图像生成等任务。应用 CFG 时,除了输入提示(prompt),还需提供负向提示(negative prompt)和引导因子(guidance scale)。为了加速该功能,FlagScale创新性地实现了正向提示和负向提示的无缝拼接,并通过一次推理即可得到以往需要两次推理的结果,端到端推理性能比 HuggingFace 高出 3.8~6.7倍。
Part.03
加速LLaVA-OneVision,助力模型实现SOTA 效果
为LLaVA-OneVision进行了从数据处理到训练的完整适配,并在千万级多模态开源指令数据集Infinity-MM上进行了效果验证,同配置下训练效率达到DeepSpeed的1.7倍,训练所得的Aquila-VL-2B模型最终性能达到同规模下模型中的SOTA效果。
Infinity-MM数据集:
https://arxiv.org/abs/2410.18558
· 提供了高效的数据预处理和加载方案,提前将数据离线进行shuffle并处理为二进制格式,并结合Energon数据处理功能,确保在超大数据量场景下实现快速加载,以避免内存不足(OOM)问题。同时,完整地支持动态分辨率功能,实验显示在相同数据下,其模型效果与DeepSpeed持平甚至更优。
· 通过综合应用张量并行、数据并行、分布式优化器(Distributed Optimizer)、Flash Attention等多种并行策略与优化技术,在1.5B和12K序列长度的任务中端到端吞吐性能达DeepSpeed的1.7倍。此外,FlagScale还提供参数转换脚本,支持Qwen2/2.5系列和SigLip等多种模型,方便用户在Hugging Face与FlagScale之间灵活切换,满足不同下游任务和评测需求。
Part.04
新增自动调优功能,新手也能轻松应对大规模训练
为用户提供了开箱即用的自动调优工具,仅需通过配置便可一键式获取性能最优的并行策略,让分布式训练门槛大幅降低,新手也能轻松应对大模型训练。
利用显存代价模型进行配置筛选,优先剔除超显存配置,并通过基于历史反馈的动态剪枝机制进一步优化搜索时间,实现边搜索边剪枝的能力。此方法将搜索空间压缩80%以上,显著提高调优效率,帮助用户以更低的成本快速获得全局最优策略。
智源将继续致力于研究适用于多种硬件的大模型通用并行策略和关键性能优化技术,并携手生态伙伴及开发者,共同应对超大规模算力高效聚合的挑战。持续完善FlagScale的功能、性能和易用性,努力打造成大模型开发者所需的端到端工具,期待更多开发者参与到开源项目的贡献中,一起推动大模型训推框架技术的创新与应用。
阅 读 更 多