大模型幻觉(Hallucination)是指模型在生成内容时编造事实、虚构数据或输出逻辑错误内容的现象。其根本成因在于:大模型的训练目标是最小化词元预测的交叉熵损失,而非"确保每一个生成的事实都准确";模型的知识来源于训练数据中的统计模式,而非对真实世界的符号化理解;在面临训练分布之外的查询时,模型仍会以高置信度输出看似合理但实际上错误的内容。幻觉问题在当前阻碍大模型从"能聊天"走向"能做事"的过程中,是最关键的单点障碍,在医疗、法律、金融等高风险场景中尤其危险。
RAG(检索增强生成)是目前最成熟、应用最广泛的幻觉缓解方案。其基本思路是:在模型生成答案之前,先从可信知识库中检索与用户问题最相关的文档片段,将这些片段作为"上下文证据"与用户问题一起输入模型,模型在拥有明确参考来源的情况下生成答案,其幻觉概率显著低于仅依赖自身参数化记忆的生成方式。RAG 的效果高度依赖于检索质量——如果检索到的文档片段不相关或信息不完整,模型仍可能产生幻觉。因此,2026 年的先进 RAG 系统通常结合跨度级验证(Span-level Verification),对生成的每个断言与检索到的证据进行比对,并将验证结果反馈给用户,实现结构化的幻觉防控。
以 OpenAI o 系列、DeepSeek-R1 为代表的推理模型(Reasoning Models),通过在生成最终答案之前执行扩展的思维链(Chain-of-Thought)推理,对中间推导步骤进行自我验证,从而显著降低幻觉率。这类模型在回答复杂问题时会"思考"较长时间,在内部评估多个推导路径后选择最合理的答案。GPT-5.5 系列模型在医疗、法律、金融三大高危领域的幻觉率较前代降低 52.5%,搭载该模型的 GPT-5.5 Instant 版本已被设为 ChatGPT 的默认模型。推理模型的核心思路是用"推理时计算"(Inference-time Compute)换取输出质量的提升,在医疗诊断、法律分析等高风险场景中具有显著价值。
2025–2026 年,业界在幻觉治理思路上出现了重要转变:从"让模型知道更多事实"转向"让模型感知并表达自身的不确定性"。具体技术包括:奖励模型校准(Reward Models for Calibrated Uncertainty),通过强化学习奖励"在证据不足时表达不确定性"的行为,惩罚过度自信的错误输出;针对性偏好微调(Targeted Preference Finetuning),通过构造易诱发幻觉的样例并训练模型偏好忠实输出,可将幻觉率降低 90%–96%;元认知训练(Metacognition Training),教模型在生成每个答案的同时输出置信度评分,供调用方决定是否需人工复核。谷歌研究院与特拉维夫大学联合发表的 ICML 2026 论文指出,让模型学会说"我不确定",比继续扩大训练数据更能有效提升高风险场景下的可信度。
企业级 AI 应用的幻觉治理通常需要构建多层防线:检测层引入独立的验证模型对主模型输出进行事实性交叉校验,将输出中的关键事实抽取为三元组(主体、关系、客体)并通过知识库或搜索引擎逐一验证;缓解层结合 RAG、推理模型和不确定性表达,在生成阶段降低幻觉概率;防护层在输出返回用户之前执行安全过滤,检测是否包含疑似虚构内容,并可视情况触发人工审核。这种分层架构正成为企业 AI 落地的基础工程标配,腾讯云在混元大模型的企业级部署中亦提供了多层幻觉防控能力,保障关键业务场景的输出可信度。