Gemini Deep Think助力数学与科学发现

原创

用户11764306

发布于 2026-06-09 06:06:16

1050

2026年2月11日研究

利用Gemini Deep Think加速数学与科学发现

Thang Luong 和 Vahab Mirrokni

在数学家和科学家的指导下，Gemini Deep Think正在解决数学、物理和计算机科学领域的专业研究问题。

2025年夏季，一个高级版本的Gemini Deep Think在国际数学奥林匹克（IMO）中达到了金牌标准。随后，更新版本在国际大学生程序设计竞赛中取得了类似成绩。这些结果表明，该模型能够推理一些为学生设计的最具挑战性的数学和编程问题。此后，Gemini Deep Think模式已进入科学、工程和企业工作流程，以应对更复杂、开放式的挑战。

最近一周，团队发表了两篇论文，详细介绍了利用Gemini Deep Think模式解决专业研究问题的跨学科努力。这些成果源于数学家、物理学家和计算机科学家之间的深度合作。

纯数学前沿

与IMO问题不同，研究级别的数学需要来自大量文献的高级技术。虽然基础模型拥有庞大的知识库，但数据稀缺常常导致在高级学科中出现表面理解和幻觉。

为了解决这个问题，构建了一个由Gemini Deep Think模式驱动的数学研究智能体（内部代号Aletheia）。它包含一个自然语言验证器，用于识别候选解决方案中的缺陷，并实现生成和修订解决方案的迭代过程。关键的是，该智能体能够承认无法解决问题，这一关键特性提高了研究人员的效率。

此外，该研究智能体使用网络搜索和网页浏览来导航复杂的研究，在综合已发表文献时防止虚假引用和计算不准确。

自2025年7月达到IMO金牌标准以来，Gemini Deep Think进展迅速，随着推理时计算规模的扩展，在IMO-ProofBench Advanced测试中得分高达90%。证明了缩放定律在超越奥数级别进入博士级练习时仍然成立。值得注意的是，Aletheia表明，可以在较低的推理时计算下实现更高的推理质量。

截至2026年1月，最新高级版本的Deep Think在奥数级问题上显著优于IMO金牌版本（2025年7月）。Aletheia以更低的推理时计算在推理质量上实现了进一步飞跃。所有结果均由人类专家评分。

推理时缩放定律也适用于博士级练习。

对于研究级别的数学，Aletheia已经通过不同级别的自主研究实现了多项进展：

可靠的自主研究：一篇完全由AI生成、无需任何人工干预的研究论文（Feng26），计算了算术几何中称为特征权重的某些结构常数。
AI引导的协作：一篇研究论文（LeeSeo26）展示了人机协作，用于证明相互作用粒子系统（称为独立集）的边界。
大规模半自主评估：对Bloom的Erdős猜想数据库中700个开放问题进行了评估，包括对其中四个开放问题的自主求解。在Erdős-1051问题上，模型自主求解并帮助推导出了一项推广，相关结果发表在一篇研究论文中（BKKKZ26）。

该智能体还在另外两篇论文（FYZ26）和（ACGKMP26）中贡献了中间命题。值得注意的是，此前已有使用Gemini进行小规模研究级别数学协作的工作。

经过与数学界的广泛讨论，提出了一种分类法，根据重要性和AI贡献程度对AI辅助数学研究进行分类，以促进关于AI生成结果的负责任的记录、评估和交流。第2级（“可发表质量”）的工作已提交给 reputable 期刊。目前，未声称有任何第3级（“重大进展”）和第4级（“里程碑式突破”）的结果。

扩展到物理和计算机科学

Gemini Deep Think模式在计算机科学和物理领域也显示出潜力。第二篇论文基于类似的智能体推理思想，确定了有效的协作“配方”，特别是“顾问”模型，其中人类通过迭代的“Vibe-Proving”循环指导AI，以验证直觉和完善证明。还详细介绍了战术技术，如“平衡提示”（同时请求证明或反驳以防止确认偏差）和代码辅助验证。这些方法，结合模型通过深层结构连接不同科学领域的能力，正在改变理论研究的方式。这项工作建立在成功部署高级版Gemini Deep Think以协助审阅STOC‘26会议计算机科学理论论文的基础上。

通过与专家就18个研究问题进行协作，一个高级版本的Gemini Deep Think帮助解决了算法、机器学习与组合优化、信息论和经济学领域的长期瓶颈。来自论文《利用Gemini加速研究：案例研究与通用技术》的亮点包括：

跨越数学边界解决网络难题：经典计算机科学问题如“最大割”和“斯坦纳树”的进展放缓。Gemini通过跳出框框思考打破了这两个僵局。它通过从完全不相关的连续数学分支中提取高级工具来解决这些离散算法难题。
解决在线次模优化中一个长达十年的猜想：一篇2015年的理论论文提出了一个看似显而易见的规则。专家们奋斗了十年试图证明这一点。Gemini设计了一个高度具体的三项目组合反例，严格证明了长期存在的人类直觉是错误的。
机器学习优化：训练AI过滤噪声通常需要工程师手动调整数学“惩罚项”。研究人员创造了一种自动执行此操作的新技术，但无法从数学上解释原因。Gemini分析了方程，并证明了该方法通过秘密地动态生成其自身的“自适应惩罚项”来取得成功。
为AI升级经济理论：最近一个用于拍卖AI生成令牌的“启示原理”仅在投标被限制为有理数时在数学上有效。将域扩展到连续实数会使原始证明失效。Gemini运用了高级拓扑学和序理论来扩展该定理，以适应现实世界的连续拍卖动态。
宇宙弦的物理：计算宇宙弦的引力辐射需要找到包含“奇点”的棘手积分的解析解。Gemini利用Gegenbauer多项式找到了一种新颖的解法。这自然地吸收了奇点，将一个无穷级数压缩成一个封闭形式的有限和。

跨越信息论、复杂性理论、密码学和机制设计等不同领域的结果展示了AI如何从根本上改变研究。

鉴于计算机科学以会议为导向的灵活发表流程，按学术轨迹而非严格的分类法来描述这些结果。大约一半的目标是强档会议——包括已接收的ICLR ’26论文——而其余大部分发现将构成未来的期刊投稿。即使通过识别错误或反驳猜想（第3.2节和第3.1节）来纠正领域方向，这些结果也凸显了AI作为高级科学协作者的价值。