人类更愿意和“公平”的智能体合作：大规模人机博弈实验新发现 | NSR

文章来源：企鹅号 - 中国科学杂志社

随着大语言模型不断发展并逐步走向真实应用场景，人机合作正从“机器辅助人类”迈向“人机共同协作”。然而，一个长期存在的问题是：人们通常不如对待人类伙伴那样愿意与机器合作，这种合作落差被称为“机器惩罚”。

近日，西北工业大学王震教授联合上海人工智能实验室胡舒悦研究员在《国家科学评论》（National Science Review, NSR）发表研究长文，系统探讨了大语言模型驱动的智能体能否跨越这一障碍。研究基于一项包含1152名参与者的大规模人机博弈实验，构建了自私型、合作型和公平型三类智能体。结果发现，真正能够将人类合作水平提升到接近人-人互动水平、从而克服机器惩罚的，并不是始终利他的合作型智能体，也不是单纯逐利的自私型智能体，而是具有“公平”取向的智能体。进一步分析表明，这类智能体之所以有效，不在于表面的拟人化设计，而在于其行为方式更接近真实人类社会互动中的公平判断、互惠逻辑与规范感知。

研究背景：为什么人们更难与机器合作？

随着机器越来越多地进入谈判、协同决策、内容生成和复杂任务分工等场景，人机关系正从“使用工具”转向“人机合作”。但现实中，即便机器具备很强的计算和执行能力，人类仍往往不愿像信任另一位人类那样信任机器，也不愿像对待人类伙伴那样与机器稳定合作。

过去，研究者尝试通过更像人的外形、更自然的语言风格，甚至弱化机器身份来缓解这种偏差，但这些方式要么作用有限，要么带来新的伦理问题。因此，一个关键问题随之出现：究竟什么样的机器，才能真正被人当作“可以合作的对象”？

基于这一问题，研究团队将目光投向了大语言模型智能体。相较于传统程序化智能体，大语言模型不仅能够自然交流，还学习了大量关于公平、信任、风险与合作的社会性知识。研究团队据此设计了三类智能体：

1)合作型强调帮助伙伴；

2)自私型强调最大化自身收益；

3)公平型则在兼顾集体利益的同时，对自身利益保留适度优先。

核心发现：只有公平型智能体真正克服了“机器惩罚”

研究结果显示，在明确告知参与者其互动对象是人类还是智能机器的前提下，只有公平型智能体能够将人类合作水平提升到与人人互动相近的程度。相比之下，无论是始终示好的合作型智能体，还是以自身利益为导向的自私型智能体，都没有跨越这一合作鸿沟。

这说明，人机合作中的关键，并不是让机器永远配合、绝对无私，也不是单纯让机器更理性、更高效，而是让机器展现出更接近真实社会合作的行为特征。换句话说，最有效的并不是“最好说话”的机器，而是“最像真实社会合作者”的机器。公平型智能体之所以能够克服“机器惩罚”，正是因为它在合作与自我保护之间呈现出更接近人类社会行为的平衡感。

图1 公开机器身份条件下，不同类型智能体对人类合作水平的影响

机制解析：真正促成合作的，不是“永远守诺”，而是“适度而克制的违约”

为了进一步理解公平型智能体为何更能激发合作，研究团队分析了博弈前沟通与沟通后的真实决策行为。结果发现，三类智能体都能够较为顺畅地与人类沟通，也都经常能在正式决策前达成合作承诺。

但口头承诺并不等于实际合作。研究发现，合作型智能体几乎总是履行承诺，自私型智能体则经常违背承诺，而公平型智能体处在两者之间：它既不会无条件守诺，也不会频繁背离合作，而是在特定情境下表现出有限、克制、策略性的违约行为。

图2 不同类型互动中，博弈前合作承诺与博弈中违约行为的比较

进一步建模分析表明，智能体违约频率与人类合作水平之间并不是简单的线性关系。当智能体从从不违约转向偶尔违约时，人类合作率反而会上升；但当违约过于频繁时，人类合作则明显下降。这说明，完全不偏离承诺并不一定最能激发合作，适度表现出风险判断、互惠考量与情境敏感性，反而更容易让人将其视为真正理解合作规则的对象。公平型智能体恰恰展现出了这种“有原则的合作”，因此比单纯利他或单纯自利的智能体更容易获得人的合作回应。

图3 智能体违约频率与人类合作率之间的非线性关系

研究团队在实验后的调查问卷中进一步考察了参与者对不同互动对象的主观感受。结果发现，与公平型智能体互动的参与者，更倾向于认为同组中的其他人也会选择合作，也就是说，公平型智能体更容易建立“合作是常态”的社会预期。与此同时，参与者普遍认为公平型智能体在智能性和行动能力上与人类相近，并且比人类更值得信任、更公平、更合作，也更容易带来正面的互动体验。

图4 智能体对合作规范、心智感知与人类印象的影响

研究意义：推动AI智能体设计从“功能执行”走向“社会协作”

这项研究表明，克服“机器惩罚”的关键，不在于表层拟人化，而在于让智能体具备更贴近人类社会认知复杂性的行为模式。未来高质量的人机协作智能体，不应只是理性计算器或辅助工具，而应能够理解公平、互惠、风险、承诺和社会规范，在复杂互动中作出更接近人类合作逻辑的回应。从更广的意义上说，这项工作也推动了AI智能体设计范式的转变。未来智能体的发展方向，不应只停留在单体能力更强，而应进一步走向社会协作能力更强。

总结与展望

该研究通过大规模行为实验表明，大语言模型智能体并非天然受限于“机器惩罚”。当智能体能够展现出更接近人类社会互动的公平取向、互惠逻辑和规范感知时，人类完全有可能像对待真实合作者那样与其建立合作关系。这不仅为理解人机合作的本质提供了新的实验证据，也为未来面向谈判、教育、医疗、组织协作等真实场景的智能体设计提供了重要启发。

发表于: 2026-05-232026-05-23 08:02:41
原文链接：https://page.om.qq.com/page/OJE5qASeYrmiPS1NjJqHBsdw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

人类更愿意和“公平”的智能体合作：大规模人机博弈实验新发现 | NSR

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐