推理大模型虽然功能强大,然而对于一道简单的数学题目,它竟然能洋洋洒洒地推理出整整三页的内容,而这些内容几乎全是毫无新意的重复论述,让人难以捕捉到核心要点……
一种将大型模型的连续叙述转化为可管理记忆单元的高效压缩技术,现已问世!
R-KV开源项目正式亮相,其显存占用降低至90%,数据吞吐量提升至6.6倍,准确率达到了100%。
该系统能够对token进行实时排序,同时考虑到其重要性与非重复性,仅筛选出信息量大且种类繁多的token,以此有效缓解大模型推理过程中的信息冗余问题。
让“长时间推理”不再是奢侈品。
项目详情可见文末链接。
R-KV三步走:冗余识别+重要性评估+动态淘汰
链式思考(Chain-of-Thought,CoT)使得长语言模型(LLM)的解题过程变得直观易懂,然而,这也导致了推理过程的长度呈现出指数级的增长。
以DeepSeek-R1-Llama-8B为例,解决一道AIME数学题目即可生成3.2万个Token;其模型权重高达15.5GB,而KV缓存又额外占用4.1GB——这样一来,显存容量瞬间被耗尽。
现有的KV压缩技术,如SnapKV、StreamingLLM、H2O等,主要服务于长文本输入的处理。然而,当模型在输出阶段频繁输出相似内容时,这些相似句子之间会互相吸引注意力,导致“按注意力降低分数”的策略无法有效实施。
导致关键环节被错误删除、多余信息得以保留、精确度急剧下降等问题出现。
R-KV采取了一系列措施,在模型解码过程中,对KV缓存进行实时压缩处理,以消除多余的键/值(KV)标记,并仅保留那些关键且非冗余的标记。
Token尚未录入KV,便先行作出“存留”的判断,从而有效遏制显存规模的扩大。
多头注意力综合评估,每个Token对后续答案的贡献度。
计算Key向量余弦相似度,找出“复读机”式内容。
依据“重要性高且冗余度低”的原则进行实时调度关键值对配额,当λ值接近0.1时,其效果最为理想。
该流程具备无特定语言限制、模型无关的特性,无需对模型架构进行调整,实现“即插即用”的便捷方式。故此,它能够直接融入强化学习的采样环节,展现出极高的灵活性。
可视化:R-KV vs. SnapKV
图中揭示了R-KV模型与纯注意力机制下的SnapKV模型在相同的解码阶段挑选了哪些词汇。其中,以灰色表示未被选择的token;颜色由浅至深红色渐变,代表被越来越多的注意力头所关注。
观察可见,SnapKV的焦点锁定在距离当前查询最近的局部区域,而且对于诸如“3 students are leaving early…”等无意义的内容,甚至会出现反复记录的情况。
R-KV所选出的Token贯穿了整个推理过程,涵盖了题目中的关键词“30 students”,关键中间值“24”和“12”,以及最终的答案,而且其语义覆盖范围也更加广泛。
通过整合注意力集中程度和冗余信息筛选,R-KV有效保留了核心的上下文信息并剔除了干扰,从而圆满完成了任务;然而,SnapKV却错误地删除了关键数据,导致了错误的答案。
R-KV展现出更广阔的覆盖面,同时具备丰富的信息种类,并且其去重功能尤为突出。
性能测试:准确率不降反升
观察结果表明,R-KV在面临挑战的数学测试基准上显著超越了初始基准,甚至其表现超越了完整的KV系统。
在计算成本方面,R-KV方法加入了重要性评估与冗余评估的额外步骤,尽管如此,其整体成本仍保持在一个合理的水平,且通常能够被KV缓存所节省的注意力消耗所补偿。当序列长度不断增长时,这种成本与效益的平衡愈发显现出其优势。
对内存节约及端到端数据传输效率进行即时评估,我们发现,在批处理规模为单个数据点的情况下,R-KV在数据传输效率方面略胜一筹于FullKV。这一现象说明,R-KV通过降低注意力机制的计算量所获得的加速效益,已经超越了其增加的计算成本。
然而,这种速度的直线上升仅占据了整体收益的一小部分;R-KV技术所带来的主要吞吐量增长,主要源于KV缓存压缩技术的应用,这一技术使得模型能够处理更大规模的推理批处理。
评估了基于比例及固定KV缓存预算的端到端数据传输效率,结果显示R-KV在批处理规模和吞吐量方面均显著优于FullKV,且在保证任务性能的前提下。
R-KV的适用场景如下:
显存断崖缩减,让消费级GPU甚至手机NPU也能跑
反思-重写-自评等复杂流程不再受显存限制。
直接用于加速强化学习的采样过程
该论文的PDF版本可通过以下链接获取:https://arxiv.org/pdf/2505.24133.pdf。
项目网址为:https://zefan-cai.github.io/R-KV.page/,请访问该链接以获取更多信息。
代码存储库位于:https://github.com/Zefan-Cai/R-KV,该地址指向了由蔡泽凡创建的代码库。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/276019.html