蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

JQR1 · 发表于 2025-12-12 17:09:52

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

在大语言模型技术发展的新潮流中，蚂蚁技术研究院于近日正式发布了 LLaDA2.0系列，这是业内首个参数规模达到100B 的离散扩散大语言模型（dLLM）。这一创新的模型不仅打破了扩散模型难以规模化的固有印象，还在生成质量和推理速度上实现了显著的提升，为大语言模型领域开辟了新的发展方向。

LLaDA2.0系列包括两种版本:16B（mini）和100B(flash)。此次发布的100B 版本，是目前最大的扩散语言模型，特别适合在复杂的代码生成和指令执行任务中展现其卓越性能。蚂蚁集团表示，LLaDA2.0通过全新的 Warmup-Stable-Decay(WSD)预训练策略，实现了自回归(AR)模型知识的无缝继承，避免了从零开始训练的高昂成本。

在技术细节方面，LLaDA2.0展现出了并行解码的优势，其推理速度达到535tokens/s，比同级的 AR 模型快了2.1倍。这一速度的提升得益于模型在推理过程中的 KV Cache 复用和块级并行解码技术。此外，蚂蚁集团在后训练阶段通过互补掩码和置信度感知并行训练（CAP）进一步优化了模型的数据效率和推理速度。

LLaDA2.0在多个评测维度上表现突出，尤其是在结构化生成任务，如代码生成领域，显示出更强的全局规划能力。在复杂的智能体调用和长文本任务中，LLaDA2.0同样表现优异，展现了其在多样化应用场景中的强大适应能力。

蚂蚁集团的发布不仅标志着离散扩散技术的一个里程碑，同时也预示着扩散模型在超大规模应用场景下的可行性与优势。未来，蚂蚁集团将继续探索扩散模型的潜力，计划扩展参数规模，深入融合强化学习及思考范式，并致力于推动生成式人工智能的进步。

地址:https://huggingface.co/collections/inclusionAI/llada-20

来源：AIbase

[人工智能] 蚂蚁开源 LLaDA2.0，业内首个100B 参数规模的扩散语言模型

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们