ChatGPT科学推理能力存疑，自相矛盾频发

原创

用户11764306

发布于 2026-05-28 09:36:14

1100

一项新研究对ChatGPT进行了严格测试，要求其判断数百个科学假设的真假。结果发现，表面80%的准确率在排除随机猜测后大幅下降，模型展现出较弱的推理能力，且在重复提问时频繁自相矛盾，答案前后翻转。

完整报道

人工智能可能听起来很自信——但在真正理解方面，它的猜测比你想象的还要多。

某机构教授及其研究团队通过提供从科学论文中提取的假设，对ChatGPT进行了重复测试。目标是看人工智能能否正确判断每项主张是否得到研究支持——换言之，判断其真假。

团队总共评估了700多个假设，并对每个假设重复提问10次以衡量一致性。

准确性结果与AI性能局限

在2024年首次实验时，ChatGPT的回答正确率为76.5%。在2025年的后续测试中，准确率略微上升至80%。然而，当研究人员排除随机猜测因素后，结果远没有那么亮眼：AI的表现仅比随机猜测好约60%，这一水平接近“D”级（低分），而非高可靠性。

该系统最难识别虚假陈述，正确标注率仅为16.4%。它还表现出明显的不一致性。即使对完全相同的提示重复10次，ChatGPT也仅约有73%的时间给出一致答案。

不一致的回答引发担忧

“我们谈的不仅是准确性，还有不一致性。因为如果你反复问同一个问题，会得到不同的答案，”该出版物的主要作者表示。

“我们用了10次完全相同的提示。一切条件都相同。它可能先回答‘真’，下一次就说‘假’。真、假、假、真……有好几个案例出现了五次真、五次假。”

AI的流畅表达与真实理解

该研究结果强调，在依赖AI做重要决策（尤其是那些需要细微或复杂推理的决策）时必须谨慎。虽然生成式AI能产生流畅且有说服力的语言，但它尚未展现出同等水平的概念理解能力。

研究者认为，这些结果表明，能够真正“思考”的通用人工智能可能比许多人预期的更遥远。

“当前AI工具并不像我们那样理解世界——它们没有‘大脑’，”研究者说。“它们只是记忆，可以给你一些见解，但它们并不理解自己在说什么。”

研究设计与方法

团队使用了自2021年以来发表在商业期刊上的科学研究的719个假设。这类问题通常涉及细微差别，多个因素会影响假设是否得到支持。将如此复杂的判断简化为简单的“真”或“假”需要仔细推理。

研究人员在2024年测试了免费版某AI模型，在2025年测试了更新版某AI模型。总体而言，两个版本的表现相似。在排除随机概率（随机猜测给出正确答案的概率为50%）后，AI的有效性在两个年份都仅比随机水平高出约60%。

AI推理的关键弱点

研究结果指向了大型语言模型AI系统的一个根本局限。尽管它们能生成流畅且有说服力的回答，但通常在推理复杂问题时遇到困难。研究者指出，这可能导致答案听起来令人信服，实际却是错误的。

专家为何敦促谨慎使用AI

基于这些发现，研究人员建议商业领导者验证AI生成的信息，并持怀疑态度。他们还强调需要对AI系统能做什么、不能做什么进行培训。

尽管本研究重点关注ChatGPT，但研究者指出，对其他AI工具的类似实验也产生了可比的结果。该工作也建立在早期呼吁警惕AI炒作的研究基础上。

“永远保持怀疑，”他说。“我不反对AI。我自己也在用。但你必须非常小心。”FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

计算机

网络安全

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度

ChatGPT科学推理能力存疑，自相矛盾频发

ChatGPT科学推理能力存疑，自相矛盾频发

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐