设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
小红书 RedKnot 推理引擎开源,长上下文处理效率翻倍 ...
返回列表
发布新帖
查看:
4
|
回复:
0
[人工智能]
小红书 RedKnot 推理引擎开源,长上下文处理效率翻倍
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
4 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
在生成式人工智能的应用场景中,如何让模型在处理超长文本时既快又省,一直是工程师们攻克的难题。近日,小红书技术团队开源了其自主研发的 RedKnot 推理引擎,带来了一套针对长上下文任务的“降本增效”新方案。
RedKnot 的核心创新在于打破了传统的 KV Cache(键值缓存)处理模式。以往,大模型在推理过程中,缓存是按 token(词元)维度存储的,这导致在处理长文本时,内存开销呈线性增长,极大地拖累了推理速度与并发能力。RedKnot 另辟蹊径,将 KV Cache 沿注意力头(Attention Head)维度进行拆解,并引入了“头分类稀疏”、“稀疏 FFN”以及“SegPagedAttention”三大机制,实现了算法逻辑与存储粒度的统一。
这一架构调整带来的性能提升十分显著。实测数据显示,在 8 卡 H800 的高性能计算环境下,RedKnot 能够将首字生成时间(TTFT)加速 1.6 倍至 3.54 倍,单卡并发能力更是提升了 4.7 倍至 7.8 倍。在预填充阶段,计算资源消耗(FLOPs)被削减了 67% 至 79.5%。以 DeepSeek-V4-Flash 模型在 128K 超长上下文任务上的表现为例,其首字生成速度提升了 5.16 倍,KV 数据传输效率也优化了 6.3 倍,且推理精度依然稳健,保持在稠密模型性能的 95% 以上。
业内专家认为,RedKnot 的开源为推理引擎的工程优化提供了重要参考。在算力资源日益紧缺的背景下,这种通过底层架构精细化拆解来缓解长文本推理负担的思路,无疑为构建更轻量、更高效的 AI 推理系统开辟了新的技术路径。目前,相关代码已正式开源,旨在推动长文本 AI 应用的普及与落地。
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2026
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.123314 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表