返回列表 发布新帖
查看: 6|回复: 0

[人工智能] 面壁智能联合清华大学发布中国首个1.58-bit大模型BitCPM-CANN

发表于 5 小时前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
近日,面壁智能联合清华大学及 OpenBMB 开源社区,正式发布并开源了中国首个基于华为昇腾平台训练的三值(1.58-bit)大模型 ——BitCPM-CANN。该模型在低比特大模型训练领域取得了重大突破,标志着中国在人工智能技术上的又一里程碑。

BitCPM-CANN 的推出,不仅展示了国产算力平台的强大实力,还实现了从量化算子到训练算法的全链路原生开发。该模型分为0.5B、1B、3B 和8B 四个尺寸,性能表现卓越,相较于同尺寸的全精度家族 MiniCPM4进行了逐项对照评测,结果令人振奋。BitCPM-CANN 在推理阶段能够释放约6倍的显存红利,这意味着一个8B 参数的模型能够轻松运行在当前主流旗舰手机上,为手机产业带来了极大的便利。

6391531847679586725478455.png

官方介绍,面壁智能基于 MindSpeed 与 Megatron-LM 搭建了完整的低比特训练底座,涵盖了环境适配、32K 长序列支持、并行策略、融合算子等工程体系。今后,所有面向昇腾的低比特训练工作都可以依托这一套公共基础设施。这不仅降低了开发门槛,也加快了技术的迭代速度。

6391531850046107122531049.png

为了进一步推动这一技术的应用,BitCPM-CANN 的所有模型权重均已开源,用户可以通过 HuggingFace 和 ModelScope 平台获取。这为开发者提供了一个极具潜力的工具,鼓励更多的创新应用在 AI 领域涌现。

综上所述,BitCPM-CANN 的发布标志着中国在 AI 大模型训练领域迈出了坚实的一步,为未来的智能应用铺平了道路。

来源:AIbase

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2026 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.110641 second(s), 7 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表