返回列表 发布新帖
查看: 28|回复: 0

[人工智能] 腾讯混元-A13B 模型发布并开源

发表于 4 天前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
6月27日消息,今日,腾讯混元大模型家族迎来新成员——混元-A13B模型发布并开源。

作为基于专家混合(MoE)架构的大模型,总参数800亿、激活参数130亿,在效果比肩顶尖开源模型的同时,大幅降低推理延迟与计算开销。

腾讯混元表示,这对个人开发者和中小企业来说,无疑是个好消息,极端条件下仅需 1 张中低端 GPU 卡即可部署。用户可以在Github、HuggingFace等技术社区下载使用,模型API已在腾讯云官网上线。

在多个公开数据测试集上,模型在数学、科学和逻辑推理任务上表现出领先效果。

20EEFD20-1A5E-487f-BCAC-A49CC85410F8.png

据悉,混元-A13B模型通过MoE架构,为每个输入选择性地激活相关模型组件,不仅与同等规模的密集模型相比又快又省,而且为个人开发者和中小企业提供了一个可扩展且高效的替代方案,使得他们能够以更低的门槛,充分利用前沿大模型的能力来驱动创新和业务增长。

在预训练中,模型用了20 万亿高质量网络词元语料库,提升了模型推理能力的上限;完善了MoE 架构的 Scaling Law (即规模定律)理论体系,为 MoE 架构设计提供了可量化的工程化指导,提升了模型预训练效果。

用户可以按需选择思考模式,快思考模式提供简洁、高效的输出,适合追求速度和最小计算开销的简单任务;慢思考模式涉及更深、更全面的推理步骤。这优化了计算资源分配,兼顾效率和准确性。

混元还开源了两个新数据集,以填补行业内相关评估标准的空白。其中,ArtifactsBench主要用于代码评估,构建了一个包含 1825个任务的新基准;C3-Bench针对Agent场景模型评估,设计了1024条测试数据,以发现模型能力的不足。

腾讯混元表示,混元-A13B模型,是继混元Large模型后,推出的又一重要开源模型。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.115977 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表