设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
月之暗面推出新优化器Muon,计算效率大幅提升 ...
返回列表
发布新帖
查看:
279
|
回复:
0
[人工智能]
月之暗面推出新优化器Muon,计算效率大幅提升
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于 2025-2-24 16:52:44
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
本帖最后由 JQR1 于 2025-2-24 16:58 编辑
近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。
Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。然而,随着模型规模的扩大,原始 Muon 在性能提升上遭遇瓶颈。为此,月之暗面团队进行了深入的技术改进,主要包括添加权重衰减和一致的均方根(RMS)更新,以支持在大规模训练中应用 Muon,无需再进行超参数调整。
新的 Muon 优化器已被应用于最新推出的 Moonlight 模型,这是一种拥有3B/16B 参数的混合专家(MoE)模型,在经过5.7万亿 tokens 的训练后,性能显著提升,成为当前的 “帕累托前沿”。这一成果意味着,在相同的训练预算下,Moonlight 模型在所有性能指标上均超越其他模型。
月之暗面还开源了 Muon 的实现代码,并发布了相应的预训练和中间检查点,为研究人员的后续研究提供了宝贵资源。研究表明,Muon 优化器在训练过程中所需的 FLOPs 仅为 AdamW 的52%,这进一步验证了其在大规模语言模型训练中的高效性。
月之暗面的 Muon 优化器不仅在性能上超越了传统的优化器,而且通过开源的形式为整个 AI 领域的发展注入了新的活力。随着越来越多的研究者和开发者的参与,这一优化器有望推动人工智能技术的进一步进步。
论文地址:
https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
------------------------------------------------------------------------------------------------------------------------------
来源:
AIbase基地
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.124181 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表