1.月之暗面团队开源了改进版Muon优化器,计算效率比AdamW提升2倍,适用于大型语言模型训练。
2.Muon优化器在训练小型语言模型方面表现出色,但扩展到更大模型方面的可行性尚未得到证明。
3.为此,团队引入了权重衰减和一致的RMS更新技术,使Muon能在大规模训练中直接使用。
4.实验结果显示,与计算最优训练的AdamW相比,Muon的计算效率提升了2倍,且仅需约52%的训练FLOPs。
5.月之暗面推出了3B/16B参数的MoE模型Moonlight,使用Muon进行了5.7万亿tokens的训练,刷新了当前帕累托前沿。
以上内容由腾讯混元大模型生成,仅供参考
省一半算力跑出2倍效果,月之暗面开源优化器Muon,同预算下全面领先。
添加权重衰减:对扩展到更大模型至关重要。 一致的 RMS 更新:在模型更新上执行一致的均方根。
论文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf 代码地址:https://github.com/MoonshotAI/Moonlight 模型地址:https://huggingface.co/moonshotai/Moonlight-16B-A3B