已有研究充分证明,让大语言模型生成逐步推理过程(即思维链,CoT)能显著提升其在复杂任务上的表现。当模型求解高难度数学方程、编写代码或回答多跳事实性问题时,将问题拆解为可管理的逻辑步骤极为有效。
然而,这一方法对简单的单跳事实性问题是否同样奏效,目前仍不明朗。举个例子,对于"玛丽·恩格尔·彭宁顿是哪一年入选美国国家发明家名人堂的?"这类问题,大语言模型要么在其参数记忆(即直接编码于权重中的知识)中存有这一事实,要么没有——这里根本不涉及复杂的算术或逻辑推导。那么,推理过程究竟为何能提供帮助?
在题为《思考即回忆:推理如何解锁大语言模型中的参数知识》的研究中,研究团队对这一现象展开了深入探讨。研究表明,允许模型生成推理过程,能够解锁那些在常规情况下几乎无法触达的正确答案。为了理解为何推理在无需执行复杂推理步骤的情况下仍能辅助参数知识的提取,研究人员设计了一系列以假设为驱动的对照实验。研究发现揭示了两种相辅相成的机制:计算缓冲效应与事实启动效应。
研究团队首先采用pass@k指标来衡量参数记忆能力的边界。与仅检查单次模型生成答案不同,pass@k会检验正确事实是否存在于多次生成的尝试结果中。通过评估模型输出分布中成功推理路径的存在情况,并降低对其精确排名的敏感度,pass@k有助于估计推理对事实提取的潜在影响,而非仅关注模型当前的最优单次输出行为。
为了在控制参数知识变量的同时评估推理的影响,研究人员聚焦于可切换推理模式(开启或关闭)的推理型大语言模型,并比较两种模式下的pass@k表现。研究重点选取了Gemini 2.5(Flash和Pro版本)以及Qwen3-32B模型,并使用两个具有挑战性的闭卷问答数据集:SimpleQA Verified和EntityQuestions。
实验结果出乎意料地一致:当推理模式开启时,模型能够成功回忆起在推理关闭状态下几乎无法恢复的答案。值得注意的是,这一提升并非源于模型对复杂问题的拆解能力,这一结论正是基于研究团队刻意选用以简单单跳问题为主的数据集所得出的。
进一步的实验揭示了两种驱动机制。其一为计算缓冲效应:推理过程中生成的Token充当了一种隐性计算的载体,即便这些Token本身并不构成有意义的推理步骤,模型也能借助它们在内部对知识进行更充分的"激活"与调取。其二为事实启动效应:在生成最终答案之前,模型倾向于先生成与目标事实相关的背景信息,这些相关事实在上下文中产生了"启动"作用,从而引导模型更准确地提取目标知识。
这两种机制共同解释了一个反直觉的现象:即便面对无需推理的简单事实性问题,推理过程本身也能显著提升大语言模型的知识回忆能力。这一发现对推理型大语言模型的设计与应用具有重要启示,也为理解模型内部的知识存储与提取机制提供了新的视角。
Q&A
Q1:什么是思维链(CoT),它对大语言模型有什么用?
A:思维链(CoT)是指让大语言模型在给出最终答案之前,先生成一系列逐步推理的过程。这种方式已被证明能显著提升模型在复杂任务上的表现,例如求解数学方程、编写代码或回答需要多步推导的事实性问题。通过将复杂问题拆解为可管理的逻辑步骤,模型能够更系统地处理信息,从而得出更准确的结论。
Q2:推理过程为什么能帮助大语言模型回忆简单事实?
A:研究发现两种关键机制。第一是计算缓冲效应,即推理过程中生成的Token作为隐性计算的载体,帮助模型在内部更充分地激活和调取相关知识,即使这些Token本身不构成有意义的推理步骤。第二是事实启动效应,模型在生成答案前会先输出相关背景信息,这些内容在上下文中对目标知识产生"启动"作用,引导模型更准确地提取正确答案。
Q3:研究中使用了哪些模型和数据集来验证推理对事实提取的影响?
A:研究主要采用了Gemini 2.5(包括Flash和Pro两个版本)以及Qwen3-32B模型,这些模型均支持推理模式的开启与关闭切换。数据集方面,研究选用了SimpleQA Verified和EntityQuestions两个具有挑战性的闭卷问答数据集,两者均以简单的单跳事实性问题为主,以确保实验结论不受复杂推理任务的干扰。