R-KV团队 投稿
量子位 | 公众号 QbitAI
推理大模型虽然功能强大,然而面对一个简单的数学题目,它却洋洋洒洒地推理了整整三页,而这些内容却充斥着大量重复的“废话”,让人难以捕捉到关键信息……
一种能够将大型模型的连续性描述转化为可管理记忆单元的高效压缩技术,现已问世!
R-KV开源项目正式亮相,其显存占用降低至90%,数据处理能力提升6.6倍,且准确率达到了100%。
它能够实时对token进行排序处理,同时考虑到其重要性与非重复性,仅筛选出信息含量高且种类繁多的token,以此有效缓解大模型推理过程中产生的冗余问题。
让“长时间推理”不再是奢侈品。
项目详情可见文末链接。
R-KV三步走:冗余识别+重要性评估+动态淘汰
链式思考(Chain-of-Thought, CoT)使得长语言模型(LLM)的解题过程变得一目了然,然而,这也导致了推理长度的急剧增加。
以DeepSeek-R1-Llama-8B为例,仅一道AIME数学题便能够生成3.2万个Token;模型权重高达15.5GB,再加上KV缓存需占用4.1GB——这使得显存瞬间达到极限。
现有的KV压缩技术,如SnapKV、StreamingLLM、H2O等,主要是为了处理长输入而设计的。然而,当模型在输出阶段变得过于冗长,相似句子之间容易互相赋予高注意力分数时,这种情况下,原本依靠注意力分数来降低相似句子评分的策略就会失效。
导致关键环节被错误删除、冗余信息得以保留、准确度急剧下滑等一系列问题。
R-KV通过以下方式在模型解码过程中实现实时压缩KV缓存,以此处理多余的键/值(KV)标记,确保仅保留关键且非多余的标记:,具体步骤包括:,,,。
该流程训练不依赖于特定语言、模型独立,无需调整模型架构,即可实现“即插即用”。因此,它可以直接应用于强化学习的采样环节,展现出极高的灵活性。
可视化:R-KV vs. SnapKV
图中呈现了R-KV模型与基于纯注意力的SnapKV模型在相同的解码阶段挑选出的token情况。在图中,灰色区域代表未被选中的token;而从浅到深的红色区域则表示被越来越多的注意力头所选择的token。
观察可知,SnapKV的焦点锁定在距离当前查询最近的局部区域,并且对于诸如“3名学生提前离开……”等无意义的内容,甚至多次予以保留。
R-KV选出的Token涵盖了整个推理过程,不仅包括了题目中的关键词“30 students”,还保留了关键中间值“24”和“12”,以及最终的答案。不仅如此,其语义覆盖范围也更加广泛。
R-KV通过整合注意力集中程度与多余信息的筛选,有效保留了关键的背景信息并剔除了干扰,从而顺利完成了任务;反观SnapKV,由于错误地删除了关键数据,结果出现了偏差。
R-KV的覆盖面更广,信息种类更为丰富,且在去除重复信息方面表现尤为出色。
性能测试:准确率不降反升
观察发现,R-KV在面临挑战的数学测试基准上显著超越了初始标准,甚至其表现超过了完整的KV系统。
在开销计算方面,R-KV加入了重要性评估与冗余评估的额外计算步骤,尽管如此,其整体开销仍保持在一个合理的水平,并且通常能够被KV缓存带来的注意力成本减少所平衡。随着序列长度的不断增长,这种权衡策略的优势愈发凸显。
对内存占用及端到端数据传输效率进行实时监测,结果显示,在批处理规模为单个数据单元的情况下,R-KV在数据传输效率方面略胜一筹于FullKV。这一现象说明,R-KV通过降低注意力机制的运算量所获得的加速效益,已超越其自身的运算成本。
然而,这种速度的显著增加仅占到了总收益的一小部分;R-KV技术带来的主要吞吐量提升源于KV缓存压缩技术,这一技术使得模型能够处理更大的推理批处理量。
评估了基于比例及固定KV缓存预算的端到端数据传输效率,结果显示R-KV在处理批量数据时,相较于FullKV,其处理规模显著扩大,吞吐量也大幅提升,且并未对任务执行效率造成负面影响。
R-KV的适用场景如下:
该论文的PDF版本可在此链接中查阅:https://arxiv.org/pdf/2505.24133.pdf。
项目访问链接:https://zefan-cai.github.io/R-KV.page/,请点击此处进入。
该代码库位于网址https://github.com/Zefan-Cai/R-KV,请访问此链接获取相关信息。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275993.html