近些年大型语言模型能力提升但仍存问题，推理概念引争论-模具钢网

近些年，大型语言模型的能力持续提升，其应用领域也在迅速扩展。即便这样，还是存在问题。

LLM 有可能出现所谓的「幻觉」，也就是生成误导性内容或者不正确的事实，还可能在较长的会话里难以维持逻辑一致性。另外，LLM 中的推理概念依旧是一个饱受争议的话题。虽说推理模型能够给出貌似逻辑连贯的响应，然而它们的推理和人类的逻辑推理存在着本质上的差异。这种区别十分关键，因为它有助于说明为何LLM尽管能够给出令人信服的输出，然而在相对简单的逻辑任务方面仍会遭遇困难。

LLM以隐式和概率的方式运行，这与操纵显式规则和事实的符号推理不同。在这篇综述报告中，LLM的「推理（reasoning）」是指生成逻辑上连贯的响应，这种响应基于数据中的统计模式，而非显式的逻辑推理或符号操作。

此外，仅通过对下一token进行预测训练得出的模型，或许无法与用户的期望对齐，也无法与道德标准对齐，特别是在模糊或恶意的场景当中。这些问题显示出，要解决LLM输出里的可靠性问题，要解决偏差问题，还要解决上下文敏感性问题，还需要专门的策略。

LLM 的训练过程大致可分为两个阶段：预训练和后训练。

预训练阶段通常依靠在大规模语料库上进行下一token预测目标，后训练阶段通常包含多轮微调和对齐。后训练机制的目的是通过优化模型行为来改善模型行为，还要实现与人类意图的对齐，这其中包括减少偏见和不准确度。

要使LLM适应特定领域的任务，一般会涉及微调等技术，这些技术虽能实现针对具体任务的学习，却存在过拟合的风险，还会产生高计算成本。

为解决这些难题，引入了强化学习（RL），这能使模型运用动态反馈和优化序列决策提升适应能力，此外，包括低秩适应（LoRA）、适配器和检索增强生成（RAG）在内的scaling技术也能提高计算效率和事实准确性。

这些策略与分布式训练框架相结合，推动了大规模部署，还进一步提升了 LLM 在不同应用里的可用性，见下图 1 。借助这些目标清晰的后训练技术，LLM 能够更有效地与人类意图以及道德伦理要求相契合，最终增强其在现实世界中的适用性。下面归纳了关键的后训练阶段。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_

微调

微调是使已经预训练的语言模型适应具体的任务或领域，其具体做法是基于精选的数据集来更新参数。

尽管经过大规模预训练的语言模型通常具备良好的泛化能力，然而微调的确能够提升其在具体任务方面的能力，这些任务涵盖情绪分析、问答以及医疗诊断。这个过程一般是监督式的，它能够让模型与任务要求相契合，不过也会引发过拟合、高计算成本以及对数据偏差敏感等难题。

为此，LoRA和适配器等参数高效型技术能够通过更新显式参数来学习特定于任务的适应，进而显著减少计算开销，随着模型的专业化，它们可能在领域外泛化方面碰到困难，所以需要权衡考虑模型的专业性或多功能性。

强化学习

在传统的强化学习设置里，智能体要与结构化环境进行交互，要采取离散的动作在状态间实现转换，还要最大化累积奖励。适用强化学习的领域都应当具备定义良好的状态 - 动作空间以及明晰的目标，像机器人、棋盘游戏和控制系统这些领域。

LLM领域的强化学习存在很大差异，它并非从有限动作集中选取，而是从巨大词汇表中选取token，其不断演进的状态由不断增长的文本序列构成，如此一来，规划和credit分配会变得极为复杂，因为token选取的效果通常在后面才会显现。

另外，语言的强化学习中的反馈具有稀疏、主观和延迟的特点，所以通常依赖启发式评估和用户偏好，而非明确的性能指标。

LLM 与通常针对单个目标进行优化的传统强化学习不同，它还必须平衡多个有时相互冲突的目标，将基于过程的奖励（比如思维链推理）与基于结果的评估（比如响应质量）相结合的混合方法有助于改进学习效果。因此，LLM的强化学习需要专门的优化技术，这些技术用于处理高维输出，用于处理非稳态目标，用于处理复杂的奖励结构，以此确保响应保持上下文相关性，确保响应与用户期望对齐。

规模扩展

规模扩展对提高语言模型的性能和效率至关重要，它能帮助提升模型在任务上的泛化性能，同时也会带来显著的计算挑战，为平衡性能和资源效率，推理时需采取有针对性的策略。

思维链推理和思维树框架等技术，能增强多步骤推理，其方式是把复杂问题分解成顺序或树状结构的步骤。此外，基于搜索的技术可迭代探索可能的输出，有助于改进响应，还能确保更高的事实准确性。这些方法与LoRA、适配器和RAG等方法相结合，能够提升模型处理复杂、特定领域大规模任务的能力。

尽管在扩展方面取得了很多进步，然而挑战依然存在，比如存在收益递减的情况，推理时间变得更长，还有环境影响，特别是在测试时执行搜索技术而非训练期间。要高质量、高效地部署 LLM，确保可访问性和可行性是非常关键的。

背景信息

该综述报告的第二部分介绍了与LLM后训练相关的背景信息，其中包含基础的形式化描述，包含基于强化学习的序列推理，还包含用于语言建模的早期强化学习方法。但这里我们就略过了，详见原报告。

表1对近期的模型做了概述，这些模型包含参数，有架构类型，还采用了蒸馏RL方法。

_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

图 2 总结了 LLM 的推理方法，它展示了增强推理能力的途径，这些途径是通过思维链（CoT）提示、自我反馈和情景记忆等方法实现的。同时，图 2 突出展示了多种基于强化学习的优化技术，这些技术包括 GRPO、RLHF、DPO 和 RLAIF。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_

强化 LLM

从方法论角度而言，为把强化学习整合至LLM推理里，一般需遵循以下核心步骤：

从预训练语言模型出发，在包含高质量、人工制作的示例样本的监督数据集上对模型进行微调，这就是监督式微调（SFT），此阶段能确保模型获得符合格式和样式的基线。

收集微调模型生成的输出，进行人工偏好标注。接着对奖励模型进行训练，复现这些基于标签的分数或排名，进而有效地学习将响应文本映射到标量值的连续奖励函数。

最后，运用策略梯度算法（比如PPO）对主语言模型进行优化，目的是让奖励模型的输出达到最大化，这就是强化学习微调。不断重复这个循环，LLM能够学会在准确性、有用性以及风格连贯性等关键维度上，生成更符合人类偏好的回应。

开发复杂的奖励函数，该函数借鉴人类偏好、对抗性反馈或自动化指标，以此引导模型获得连贯、安全且适配上下文的输出，这一过程称为奖励建模和对齐。为了在多步推理过程中有效分配credit，这些奖励至关重要。

在早期，将LLM与人类偏好对齐的强化学习算法属于经典算法，比如PPO和信任域策略优化（TRPO），这些算法通过最大化预期累积奖励来优化策略，同时借助智能体目标函数和KL散度正则化对策略更新施加约束。

针对可扩展的基于偏好的优化，出现了这些方法的改进版替代方案，比如直接偏好优化（DPO）和组相对策略优化（GRPO）。这些方法把对齐目标重新表述，表述为基于人类标注的偏好数据的排名式对比损失函数。

PPO和TRPO依赖显式奖励模型和评价网络，DPO和GRPO与之不同，它们分别利用对数似然比和组奖励比较来直接优化策略，这样就无需显式价值函数近似，同时还能保留偏好一致的学习动态。

这一节涉及的具体内容如下：

奖励建模

策略优化

图 3 给出了 PPO、GRPO 和 DPO 的比较。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_

基于纯强化学习的 LLM 微调

图4的维恩图对系统、数据和模型之间的相互作用进行了说明，这种相互作用发生在实现高效的微调和部署时。它涵盖了多种策略，包括用以提升性能的加速器，如Groq、vLLM，用以提升可扩展性的适应器，如LoRA、PEFT，共同优化架构FlashAttention，数据压缩TokenMerging，Scaling Law即Chinchilla，以及模型压缩GPTQ等。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述__后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

LLM 中的监督微调

如图2所示，微调是大语言模型后训练配方的基本组成部分，这一节总结了不同类型的大语言模型微调机制，具体包括：

下表概括性地总结了现代的 LLM 框架和方法。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述__后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

测试时扩展方法

强化学习微调的是模型的策略，测试时扩展（TTS）通常在推理过程中增强模型的能力，此过程无需更新模型，图5给出了TTS方法的分类情况，是基于其底层技术进行分类的。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_

具体来说，包含以下技术：

图6对LLM的推理策略进行了比较，这种比较是从直接提示法开始的，直接提示法是指不使用推理地将输入映射到输出，之后是到更结构化的方法。

_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

思维链（CoT）引入了逐步推理，自我一致性（CoT-SC）生成多个CoT路径并选择最常出现的答案，Mutiple CoT会独立探索不同的推理路径，思维树（ToT）将推理构造为树以实现回溯和细化，思维图谱（GoT）通过对思维进行动态聚合和连接来实现这一点。

LLM 后训练评估基准

人们提出了很多基准，这些基准涉及多个领域，目的是评估LLM后训练阶段的表现。

结构良好的评估框架，能够确保全面了解LLM，在各种任务中的优势，以及局限性。

这些基准在大语言模型后处理阶段发挥着极其关键的作用，模型在这个阶段要经历微调、校准、对齐以及优化等过程，如此能够提升响应的准确性、稳健性以及道德合规性。本节对主流的基准进行了分组介绍。表3概括了这些基准分组下的关键数据集。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述__后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

未来方向

最后，作者团队收集了和LLM后训练方法有关的论文，对这些论文的趋势展开了分析，情况如图7所示。

后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述_

可以看到，自2020年以来，强化学习在优化LLM方面的地位有了显著提升，这一提升在图7a中有所体现，其中还突出了对交互式方法的需求，比如人机交互强化和可扩展性。

与此同时，自我奖励语言模型出现后，人们对奖励建模（图7b）的兴趣稳步上升，不过该领域仍在努力应对奖励hacking问题，还要设计奖励函数来解决奖励hacking的稳健型、可感知问题。

解码方法包括思维和蒙特卡洛策略，搜索方法（图7c）也包括思维和蒙特卡洛策略，其目标是通过迭代自我批评来增强模型推理能力，这些技术需要可靠的不确定性估计器，以防止计算开销过高。

安全性、稳健性和可解释性同样已成为核心关注点（图 7d），在这个方向上，研究者推动了偏见感知型强化学习方法的发展，也推动了不确定性感知型强化学习方法的发展，这些方法超越了与人类不确定性的相关性，能够维护用户信任，还能防止对抗性攻击。

个性化和适应性是关键领域，如图7e所示。在为特定领域定制LLM时，必须权衡考虑隐私风险，特别是涉及企业数据或敏感个人信息时。

与此同时，过程与结果奖励优化（图 7f）依旧是个尚未解决的问题，基于过程的奖励有助于指导渐进式改进，以结果为中心的指标更简单，不过可能无法捕捉关键的中间决策步骤。

针对新任务微调 LLM 时，除奖励结构外，仍会遇到灾难性遗忘和潜在的数据泄露等问题，这凸显了对参数高效型方法的需求，也凸显了对隐私保护策略（如差分隐私和联邦学习）的需求。

人工反馈是对齐的核心，然而其成本高昂，范围有限；Constitutional AI和RLAIF等方法期望实现部分监督的自动化，不过它们也引发了人们对偏差校准和模型自洽性的新担忧。

最后，测试时扩展和动态推理框架带来了进一步的挑战，模型必须学习何时为复杂查询分配更多计算，模型必须学习如何有效地调整验证模块，模型必须学习如何在面对对抗性输入时保持稳健的性能。这些融合的研究方向包括奖励建模、解码策略、可解释性、个性化和安全微调，它们凸显了强化学习在LLM中作用的多样性，还共同塑造了大规模语言模型开发的未来轨迹。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.mjgaz.cn/fenxiang/275810.html

近些年大型语言模型能力提升但仍存问题，推理概念引争论

相关推荐

联系我们