设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
美团 LongCat-Flash-Lite 震撼发布:45 亿激活参数性能 ...
返回列表
发布新帖
查看:
5
|
回复:
0
[人工智能]
美团 LongCat-Flash-Lite 震撼发布:45 亿激活参数性能比肩巨量模型
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
昨天 16:29
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
传统 MoE(混合专家)架构通过增加专家数量提升模型能力,却常受困于边际收益递减与高昂的通信开销。今日,美团 LongCat 团队发布了全新模型 LongCat-Flash-Lite,通过“嵌入扩展(Embedding Expansion)”这一新范式,成功打破了效能瓶颈。
核心突破:嵌入扩展优于专家扩展
LongCat 团队的研究表明,在特定条件下,扩展嵌入层相比单纯增加专家数量能获得更优的帕累托前沿。基于此,LongCat-Flash-Lite 拥有 685亿总参数,但由于采用了 N-gram 嵌入层,每次推理仅需激活 29亿至45亿参数。其中,超过300亿参数被高效分配至嵌入层,利用 N-gram 捕获局部语义,精准锁定如“编程命令”等细分场景,显著提升了理解精度。
垂直优化:从架构到系统的全链路进化
为了将理论上的稀疏优势转化为实际性能,美团在系统层面实施了三重优化:
参数智能分配:嵌入层参数占比达46%,利用 O(1) 的查找复杂度避免了计算量随参数扩容而线性增长。
专用缓存与内核融合:设计了类似 KV Cache 的 N-gram Cache 机制,并定制 CUDA 内核(如 AllReduce+RMSNorm 融合),大幅降低 I/O 延迟。
推测解码协同:通过3步投机推理扩大批次大小,配合常规嵌入层的草案模型,进一步压缩延迟。
在典型负载下(输入4K,输出1K),该模型 API 可提供 500-700token/s 的极速生成速度,支持最长 256K 上下文。
性能表现:智能体与代码领跑
在多项权威基准测试中,LongCat-Flash-Lite 展现出跨级别的竞争力:
智能体任务:在 $\tau^2$-Bench 的电信、零售、航空三大场景中均获最高分。
代码能力:SWE-Bench 准确率达 54.4%,在 TerminalBench(终端命令执行)中以33.75分远超同类模型。
通用素质:MMLU 得分 85.52,与 Gemini2.5Flash-Lite 旗鼓相当;数学竞赛级 AIME24表现稳健。
目前,美团已全面开源模型权重、技术报告及配套推理引擎SGLang-FluentLLM。开发者可通过LongCat API 开放平台申请试用,每日享有5000万 tokens 的免费额度。
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2026
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.109991 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表