首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ChatGPT科学推理能力存疑,自相矛盾频发

ChatGPT科学推理能力存疑,自相矛盾频发

原创
作者头像
用户11764306
发布2026-05-28 09:36:14
发布2026-05-28 09:36:14
1100
举报

一项新研究对ChatGPT进行了严格测试,要求其判断数百个科学假设的真假。结果发现,表面80%的准确率在排除随机猜测后大幅下降,模型展现出较弱的推理能力,且在重复提问时频繁自相矛盾,答案前后翻转。

完整报道

人工智能可能听起来很自信——但在真正理解方面,它的猜测比你想象的还要多。

某机构教授及其研究团队通过提供从科学论文中提取的假设,对ChatGPT进行了重复测试。目标是看人工智能能否正确判断每项主张是否得到研究支持——换言之,判断其真假。

团队总共评估了700多个假设,并对每个假设重复提问10次以衡量一致性。

准确性结果与AI性能局限

在2024年首次实验时,ChatGPT的回答正确率为76.5%。在2025年的后续测试中,准确率略微上升至80%。然而,当研究人员排除随机猜测因素后,结果远没有那么亮眼:AI的表现仅比随机猜测好约60%,这一水平接近“D”级(低分),而非高可靠性。

该系统最难识别虚假陈述,正确标注率仅为16.4%。它还表现出明显的不一致性。即使对完全相同的提示重复10次,ChatGPT也仅约有73%的时间给出一致答案。

不一致的回答引发担忧

“我们谈的不仅是准确性,还有不一致性。因为如果你反复问同一个问题,会得到不同的答案,”该出版物的主要作者表示。

“我们用了10次完全相同的提示。一切条件都相同。它可能先回答‘真’,下一次就说‘假’。真、假、假、真……有好几个案例出现了五次真、五次假。”

AI的流畅表达与真实理解

该研究结果强调,在依赖AI做重要决策(尤其是那些需要细微或复杂推理的决策)时必须谨慎。虽然生成式AI能产生流畅且有说服力的语言,但它尚未展现出同等水平的概念理解能力。

研究者认为,这些结果表明,能够真正“思考”的通用人工智能可能比许多人预期的更遥远。

“当前AI工具并不像我们那样理解世界——它们没有‘大脑’,”研究者说。“它们只是记忆,可以给你一些见解,但它们并不理解自己在说什么。”

研究设计与方法

团队使用了自2021年以来发表在商业期刊上的科学研究的719个假设。这类问题通常涉及细微差别,多个因素会影响假设是否得到支持。将如此复杂的判断简化为简单的“真”或“假”需要仔细推理。

研究人员在2024年测试了免费版某AI模型,在2025年测试了更新版某AI模型。总体而言,两个版本的表现相似。在排除随机概率(随机猜测给出正确答案的概率为50%)后,AI的有效性在两个年份都仅比随机水平高出约60%。

AI推理的关键弱点

研究结果指向了大型语言模型AI系统的一个根本局限。尽管它们能生成流畅且有说服力的回答,但通常在推理复杂问题时遇到困难。研究者指出,这可能导致答案听起来令人信服,实际却是错误的。

专家为何敦促谨慎使用AI

基于这些发现,研究人员建议商业领导者验证AI生成的信息,并持怀疑态度。他们还强调需要对AI系统能做什么、不能做什么进行培训。

尽管本研究重点关注ChatGPT,但研究者指出,对其他AI工具的类似实验也产生了可比的结果。该工作也建立在早期呼吁警惕AI炒作的研究基础上。

“永远保持怀疑,”他说。“我不反对AI。我自己也在用。但你必须非常小心。”FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档