首页
学习
活动
专区
圈层
工具
发布

LLM 陷入模仿陷阱:提示词示例越多越容易出现过拟合

快速阅读:大模型在 In-context learning(上下文学习)时常陷入“过度模仿”的陷阱。它们更擅长处理 A 到 B 的线性逻辑,却难以完成 A 到 Z 的全局规划,本质上是在提示词里做模式匹配,而非真正的理解。

现在的 LLM 在做 In-context learning 时,表现得像个只会机械模仿的学徒。

你给它几个例子,它就拼命往那个模子里钻。有网友提到,这种现象会导致严重的过拟合,甚至连逻辑都会跟着偏离。比如在处理某种编程语言时,如果提示词里给的例子太多,模型会直接把语法结构生搬硬套到每一行代码里,写出那种一眼就能看穿的、毫无变化的冗余表达式。

这其实是由于模型缺乏全局视野。它们擅长处理局部的、线性的任务,也就是从 A 到 B 的逻辑推导;但一旦涉及到横向的、跨越整个任务空间的推理,也就是从 A 到 Z 的长程规划,它们就容易“断片”。

这种现象让我想起一种很低效的模式匹配。模型并没有在这一刻改变自己的权重,它只是在现有的权重空间里,试图通过你提供的上下文,找到一条最像你给出的示例的路径。如果你的示例带有某种偏见或者特定的模式,模型会毫无保留地继承这些特征,哪怕这些特征在全局来看是错误的。

有观点认为,这本质上是缺乏内在动机模块的体现。目前的模型更像是 System 1 的直觉反应,而非具备严密逻辑规划的 System 2。

在使用时,如果想让它干活更像样,可能得改变策略。与其指望它一次性刷完整面围栏,不如把它拆解成无数个小的局部任务。你负责定义边界和逻辑,它负责填充细节。

毕竟,它只是在做它被要求做的事,除此之外,它并不理解为什么要这么做。

x.com/deliprao/status/2055299398792302812

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8CZi1PI9Tn7GY7bF1IIWHWg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券