迈向大型推理模型：探索大语言模型的推理能力扩展

江南在线入口登录官网

热点资讯

迈向大型推理模型：探索大语言模型的推理能力扩展

发布日期：2025-03-06 18:49 点击次数：173

在人工智能领域，大语言模型（LLMs）的突破性进展引发了广泛的研究兴趣，尤其是在复杂推理任务中的应用。来自清华大学、香港科技大学（广州）和埃默里大学的研究团队发表了“Towards Large Reasoning Models: A Survey on Scaling LLM Reasoning Capabilities”，全面回顾了近年来在扩展LLMs推理能力方面的研究进展。论文不仅介绍了LLMs的基础背景，还深入探讨了推动大型推理模型发展的关键技术，包括自动化数据构建、学习推理技术以及测试时扩展等。通过这篇综述，读者将深入了解LLMs如何从简单的自回归生成模型，逐步演变为能够模拟人类复杂推理过程的大型推理模型。

论文地址：Towards Large Reasoning Models: A Survey on Scaling LLM Reasoning Capabilities

以下是我作的中文摘要，如需了解详情，请看原文：

论文开篇引用了著名语言学家诺姆·乔姆斯基的名言：“如果语言严重缺失，思想也会严重缺失。”这句话揭示了语言与推理之间的紧密联系。随着深度学习的进步和网络规模数据集的可用性，LLMs已经成为通向人工通用智能（AGI）的重要一步。这些模型通常基于Transformer架构，并通过大规模文本语料库进行预训练，任务是通过下一个词的预测来学习语言模式。神经扩展定律表明，随着模型规模和训练数据的增加，LLMs的性能显著提升。更重要的是，LLMs还展现出了一些小模型所不具备的“涌现能力”，如上下文学习、角色扮演和类比推理等。

在这些能力中，类人推理能力尤其受到学术界和工业界的关注，因为它展示了LLMs通过抽象和逻辑推理解决复杂现实问题的潜力。一个显著的突破是“思维链”（Chain-of-Thought）提示技术，它可以在测试时引导模型生成逐步的推理过程，而无需额外的训练。这种直观的提示技术已被证明能够显著提高预训练LLMs的推理准确性，并推动了更高级的提示技术的发展，如“思维树”（Tree-of-Thought）等。

预训练是LLMs训练的基础阶段，对于开发推理能力至关重要。LLMs通过预训练不仅掌握了核心的语言知识，还获得了丰富的世界知识，为高级能力的涌现和有效的价值对齐奠定了基础。通常，LLMs的预训练依赖于高质量的文本语料库，包括大量的网页内容、书籍、代码等。通过丰富的文本语料库，LLMs基于Transformer架构进行训练，任务是通过下一个词的预测来学习语言模式。预训练后，LLMs通常表现出卓越的上下文学习能力，能够生成连贯的文本并回答各种问题。

虽然预训练使LLMs通过上下文学习展现出推理能力，但微调技术被广泛用于实现零样本和改进的推理能力。微调阶段的主要目标是细化模型的输出风格，确保其响应符合人类需求和现实应用。这通过多样化的指令数据集进行训练，这些数据集通常通过广泛且精心策划的手动注释和细化创建。随着ChatGPT的出现，新的方法涌现出来，直接从强大的LLMs中提取数据，或从现有语料库中自动构建大规模数据集。

仅依赖从高级大型推理模型中直接提取数据限制了新LLMs的潜力。一个更有前景的方法是使用强化学习进行数据构建和模型训练，这正好对应了LLM训练中的最终对齐阶段。对齐阶段通常涉及从人类反馈中进行强化学习（RLHF）等方法，以引导模型生成符合人类期望的内容。这一阶段的目标是增强LLMs在现实中的安全性和可控性。

创建大规模、高质量的推理数据集对于增强LLMs的推理能力至关重要。然而，这一任务由于成本高昂而面临重大挑战。如图1所示，人工注释虽然质量高，但成本高昂且难以扩展。相反，使用LLMs自动化注释过程提供了更具成本效益的替代方案，但面临验证有限的挑战，特别是对于逐步推理过程。

人工注释在构建LLMs数据集中的作用不可或缺。人工注释者以其细致、耐心和精确性著称，能够有效处理模糊数据并适应新场景。Zhou等人[195]证明，即使使用最少的人工注释数据，模型也能表现出色，凸显了精心策划的注释在模型有效性中的关键作用。

数据注释是一项具有挑战性且资源密集的任务，特别是在需要复杂操作（如过滤、识别、组织和重构文本数据）的场景中。这些任务通常繁琐、耗时且需要大量人力，使其成为大规模数据构建工作中的瓶颈。为了解决这些挑战，利用LLMs进行数据注释提供了一种成本效益高且高效的替代方案。

在复杂的推理任务中，模型输出的每一步都可能显著影响最终结果，因此需要对中间决策进行标注，即过程注释。然而，手动标注这些步骤既昂贵又耗时。例如，Lightman等人[75]投入了大量人力来生成大规模过程注释数据集PRM800K，该数据集满足了训练有效过程奖励模型（PRM）的要求，并大大增强了LLMs的推理能力。

虽然预训练模型在各种任务中表现出色，但它们通常在复杂推理和与人类期望对齐方面表现不佳。微调对于解决这些限制至关重要，可以细化模型在特定任务上的表现并增强其推理能力。最初，使用监督微调（SFT），模型从标注数据集中学习任务特定的模式。然而，随着推理挑战的增加，强化学习（RL）和直接偏好优化（DPO）等方法提供了更有效的途径，使用奖励模型更高效地对齐模型的输出与类人推理，促进更连贯、负责任和上下文感知的输出。

监督微调（SFT）是一种通过标注数据来优化预训练模型在特定任务或领域表现的技术。虽然预训练使模型能够从大规模非结构化数据中学习广泛的语言特征，但微调通过将模型暴露于较小的、任务特定的数据集来专门化模型，这些数据集具有清晰的输入-输出映射。

SFT在提升LLMs的推理能力方面起到了关键作用。例如，GPT、BERT和T5等模型通过预训练掌握了广泛的语言理解和生成能力，但在某些推理任务（如对象计数、卫星理解和工程问题回答）上表现不佳。通过SFT，模型可以根据任务特定的标注数据集进行优化，从而提升其在特定领域的表现。

然而，SFT也存在一些局限性。首先，它高度依赖高质量的标注数据集，这些数据集的构建成本高昂，尤其是对于需要专家注释的领域或任务。其次，SFT可能导致“灾难性遗忘”，即模型在微调过程中丢失部分预训练的通用知识，从而降低其在微调领域之外的推理能力。最后，大规模模型的微调计算成本仍然很高，即使采用参数高效的方法，对资源有限的组织来说仍然是一个挑战。

由于SFT对高质量标注数据集的高度依赖和高计算成本，强化学习（RL）成为了训练模型掌握推理过程的有力替代框架。与监督学习不同，RL使模型能够通过试错奖励信号学习，发现实现特定目标的最佳策略。

经典的强化学习方法包括从人类反馈中进行强化学习（RLHF）和从AI反馈中进行强化学习（RLAIF）。RLHF通过人类标注的偏好数据来对齐模型输出与人类期望，而RLAIF则通过模型自我评估来减少对人类标注数据的依赖。

直接偏好优化（DPO）是一种简化RL流程的方法，它直接利用偏好数据来优化模型，而无需显式的奖励模型。DPO通过成对偏好比较来优化模型输出，简化了学习流程，同时保留了RL方法的对齐优势。

对于复杂的推理任务（如数学问题解决），LLMs需要进行多步推理（如思维链）才能最终得出准确的解决方案。在这种情况下，奖励反馈通常在所有推理步骤完成后才能获得，这被称为结果奖励模型（ORM）。ORM的关键在于根据结果奖励区分中间推理步骤的正确性和重要性。

经典的强化学习方法（如PPO）通过结果奖励模型来推断中间推理步骤的贡献。然而，VinePPO发现，使用ORM训练的PPO值网络在识别中间推理步骤的价值时存在显著偏差。为了解决这个问题，VinePPO放弃了PPO中的值网络，转而使用蒙特卡洛采样方法来计算无偏的值函数估计。

过程奖励模型（PRM）基于强化学习在LLM推理中的显著进步，强调对中间步骤的评估，而不仅仅是最终结果。PRM的奖励分布在每个推理步骤中，而不是集中在最终结果上。通过在整个推理轨迹中提供细致的反馈，PRM使模型能够更好地优化行为，从而更符合人类偏好和复杂任务需求。

PRM在数学和逻辑推理任务中得到了广泛应用。例如，SELF-EXPLORE使用PRM来增强数学推理，通过识别和纠正“第一个坑”（即问题解决中的初始错误步骤）来提高模型的准确性。MATH-SHEPHERD则通过自动化过程监督来验证和强化数学推理任务中的每一步，从而在无需人工注释的情况下确保高精度。

研究人员发现，测试时提示技术（如思维链和思维树）可以进一步增强LLMs的能力。虽然简单地要求模型直接回答往往会产生次优结果，但在测试时通过明确的推理过程引导它们可以显著提高其性能。这些提示策略在数学推理和复杂决策任务中表现出色。

例如，思维链提示技术通过引导模型生成逐步的推理过程，显著提高了模型的推理准确性。思维树则通过组织多个推理路径，使模型能够系统地探索不同的解决方案策略。这些方法虽然增加了计算开销，但通过提供明确的推理指导，显著提升了模型的推理能力和解决方案的准确性。

PRM不仅在训练时发挥作用，还可以在测试时进一步提升模型的推理能力。OpenAI的o1系列模型是PRM高级应用的突出例子。新的测试时扩展定律表明，通过增加测试时计算，推理能力可以显著提升。

在测试时，PRM可以引导模型评估和搜索中间“思维”，从而鼓励模型在测试时生成深思熟虑的推理步骤，进而提高推理准确性。例如，多数投票、树搜索、束搜索和前瞻搜索等方法都可以在测试时使用PRM来优化推理路径。

OpenAI的o1系列模型代表了AI推理能力的重大进步。o1在数学、编码和科学问题解决等复杂任务中表现出色，尤其在系统问题分解和知识整合方面展现了强大的能力。o1通过大规模强化学习算法，教会模型使用思维链进行高效推理，并在测试时通过优化的计算策略显著提升了推理性能。

o1的推理能力通过高级计算分配在推理阶段得到了有效增强，特别是在复杂问题解决场景中。研究表明，o1在编程任务中允许10,000次提交每个问题，即使没有测试时选择策略，也能显著提升结果，达到金牌水平。

开源框架在开发LLMs的高级推理能力方面也取得了重大进展。例如，OpenR项目通过构建逐步推理数据，使用蒙特卡洛树搜索（MCTS）生成高质量的推理轨迹，并训练过程奖励模型（PRM）来增强模型的推理能力。

Rest-MCTS*项目则将PRM和微调策略模型的更新集成在一个相互自训练的循环中，通过MCTS生成推理轨迹，并迭代优化模型。Journey Learning项目则通过结构化训练图，结合试错、反思和回溯来构建深度因果推理。

LLaMA-Berry项目则专注于优化推理阶段的推理能力，使用LLaMA-3.1-8B架构，结合蒙特卡洛树搜索和自我优化（SR-MCTS）来动态探索和优化解决方案路径。

语言强化搜索（VRS）利用LLMs的预训练推理和语义能力来探索和优化解决方案空间。与传统的强化学习或训练密集型方法不同，VRS纯粹通过测试时推理操作，使用迭代反馈循环来优化解决方案，而无需额外的训练。

在个体Agent 设置中，VRS通过迭代推理和反馈机制来优化结构化问题空间中的解决方案。在多Agent 系统中，VRS通过自然语言通信促进LLM Agent 之间的协作，共同探索复杂的解决方案空间。在具身Agent 设置中，VRS通过结合推理和物理交互来解决现实世界中的任务。

当应用于开放式任务（如创意写作、复杂逻辑推理和开放世界游戏）时，解决方案空间往往会急剧扩展，通常变得无界或定义不清。这些任务通常需要与环境持续交互以获取相关信息，使得简单的解决方案空间搜索效率低下。

基于记忆的强化方法通过引入外部记忆模块来存储过去的观察、成功和失败的行动，使Agent 能够通过记忆进行推理和优化。例如，REMEMBERER通过记录过去的观察-行动对，并使用传统的Q学习算法来动态维护和更新每个观察-行动对的Q值，从而在遇到新任务时检索相关行动。

Agentic 系统的设计在利用LLMs进行许多下游任务中起着至关重要的作用。测试时增强技术的一个重要分支是利用LLMs搜索Agentic 系统。该领域的研究可以分为三个搜索层次：提示层次、模块层次和Agentic 层次。

通过这些测试时增强技术，LLMs能够在无需修改模型结构的情况下，动态优化推理路径和代理系统，从而显著提升推理能力。

设计一个稳健的基准对于记录LLMs能力的提升至关重要。它还在选择有前景的研究方向以进一步推进方面发挥着关键作用。在本节中，我们系统地回顾了LLM推理的流行基准，这些基准在图5中进行了分类总结。

Figure 5: A Taxonomy for LLM Reasoning Benchmar.

数学推理已成为评估LLM推理能力的关键测试平台。数学推理基准的领域从基础算术到高级大学数学，提供了系统的方法来评估数学理解和问题解决能力的不同方面。

建立在数学推理能力的基础上，系统逻辑推理能力是评估LLM认知能力的另一个基本标准。虽然数学推理侧重于定量操作和形式证明，但逻辑推理涵盖了在多样化上下文中得出有效结论、识别模式和生成合理解释的更广泛能力。

常识推理仍然是自然语言处理中的一个重大挑战，因为它旨在评估LLM理解和应用日常常识知识的能力。有各种基准针对常识推理任务的不同维度。

代码生成基准的发展对于评估LLMs在编程任务中的推理能力至关重要。这些基准评估模型在各种领域中生成准确、高效和可靠代码的能力。

基于Agent 的基准的出现彻底改变了我们在交互环境中评估LLMs作为独立Agent 的能力。这些复杂的评估框架评估了跨多样化场景的关键能力，包括决策、推理和环境交互。

OpenAI o1系列的启示导致了对预训练/后训练/推理阶段的新理解。特别是，它涉及在后训练阶段引入自玩强化学习和高质量思维链标注数据的过程奖励学习。

即使OpenAI o1系列在工程层面的突破仍然未知，理论上和技术上，其突破目前似乎主要在于慢思考数据的后训练学习。

正如本文所指出的，推理增强技术的进展迅速。推理能力不仅限于这些流行基准任务中的任务，还在于下游应用中的更一般任务。

LLMs的近期发展显著提升了其类人推理能力。引入“思维”作为中间步骤的概念、利用强化学习技术进行训练时扩展以及使用搜索算法进行测试时扩展的创新，为大型推理模型奠定了基础，这些模型可以解决日益复杂的认知任务，如OpenAI的o1系列所示。这一领域的持续进展有望重塑我们对语言的理解以及AI在解决现实问题中的应用。

上一篇：鼎捷数智龙虎榜数据（1月24日）

下一篇：越便宜的大众车质量越好，越贵的反而毛病越多