设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
蚂蚁开源 LLaDA2.0,业内首个100B 参数规模的扩散语言模 ...
返回列表
发布新帖
查看:
20
|
回复:
0
[人工智能]
蚂蚁开源 LLaDA2.0,业内首个100B 参数规模的扩散语言模型
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
昨天 17:09
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
在大语言模型技术发展的新潮流中,蚂蚁技术研究院于近日正式发布了 LLaDA2.0系列,这是业内首个参数规模达到100B 的离散扩散大语言模型(dLLM)。这一创新的模型不仅打破了扩散模型难以规模化的固有印象,还在生成质量和推理速度上实现了显著的提升,为大语言模型领域开辟了新的发展方向。
LLaDA2.0系列包括两种版本:16B(mini)和100B(flash)。此次发布的100B 版本,是目前最大的扩散语言模型,特别适合在复杂的代码生成和指令执行任务中展现其卓越性能。蚂蚁集团表示,LLaDA2.0通过全新的 Warmup-Stable-Decay(WSD)预训练策略,实现了自回归(AR)模型知识的无缝继承,避免了从零开始训练的高昂成本。
在技术细节方面,LLaDA2.0展现出了并行解码的优势,其推理速度达到535tokens/s,比同级的 AR 模型快了2.1倍。这一速度的提升得益于模型在推理过程中的 KV Cache 复用和块级并行解码技术。此外,蚂蚁集团在后训练阶段通过互补掩码和置信度感知并行训练(CAP)进一步优化了模型的数据效率和推理速度。
LLaDA2.0在多个评测维度上表现突出,尤其是在结构化生成任务,如代码生成领域,显示出更强的全局规划能力。在复杂的智能体调用和长文本任务中,LLaDA2.0同样表现优异,展现了其在多样化应用场景中的强大适应能力。
蚂蚁集团的发布不仅标志着离散扩散技术的一个里程碑,同时也预示着扩散模型在超大规模应用场景下的可行性与优势。未来,蚂蚁集团将继续探索扩散模型的潜力,计划扩展参数规模,深入融合强化学习及思考范式,并致力于推动生成式人工智能的进步。
地址:
https://huggingface.co/collections/inclusionAI/llada-20
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.120657 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表