2026年2月11日 研究
利用Gemini Deep Think加速数学与科学发现
Thang Luong 和 Vahab Mirrokni
在数学家和科学家的指导下,Gemini Deep Think正在解决数学、物理和计算机科学领域的专业研究问题。
2025年夏季,一个高级版本的Gemini Deep Think在国际数学奥林匹克(IMO)中达到了金牌标准。随后,更新版本在国际大学生程序设计竞赛中取得了类似成绩。这些结果表明,该模型能够推理一些为学生设计的最具挑战性的数学和编程问题。此后,Gemini Deep Think模式已进入科学、工程和企业工作流程,以应对更复杂、开放式的挑战。
最近一周,团队发表了两篇论文,详细介绍了利用Gemini Deep Think模式解决专业研究问题的跨学科努力。这些成果源于数学家、物理学家和计算机科学家之间的深度合作。
与IMO问题不同,研究级别的数学需要来自大量文献的高级技术。虽然基础模型拥有庞大的知识库,但数据稀缺常常导致在高级学科中出现表面理解和幻觉。
为了解决这个问题,构建了一个由Gemini Deep Think模式驱动的数学研究智能体(内部代号Aletheia)。它包含一个自然语言验证器,用于识别候选解决方案中的缺陷,并实现生成和修订解决方案的迭代过程。关键的是,该智能体能够承认无法解决问题,这一关键特性提高了研究人员的效率。
此外,该研究智能体使用网络搜索和网页浏览来导航复杂的研究,在综合已发表文献时防止虚假引用和计算不准确。
自2025年7月达到IMO金牌标准以来,Gemini Deep Think进展迅速,随着推理时计算规模的扩展,在IMO-ProofBench Advanced测试中得分高达90%。证明了缩放定律在超越奥数级别进入博士级练习时仍然成立。值得注意的是,Aletheia表明,可以在较低的推理时计算下实现更高的推理质量。
截至2026年1月,最新高级版本的Deep Think在奥数级问题上显著优于IMO金牌版本(2025年7月)。Aletheia以更低的推理时计算在推理质量上实现了进一步飞跃。所有结果均由人类专家评分。
推理时缩放定律也适用于博士级练习。
对于研究级别的数学,Aletheia已经通过不同级别的自主研究实现了多项进展:
该智能体还在另外两篇论文(FYZ26)和(ACGKMP26)中贡献了中间命题。值得注意的是,此前已有使用Gemini进行小规模研究级别数学协作的工作。
经过与数学界的广泛讨论,提出了一种分类法,根据重要性和AI贡献程度对AI辅助数学研究进行分类,以促进关于AI生成结果的负责任的记录、评估和交流。第2级(“可发表质量”)的工作已提交给 reputable 期刊。目前,未声称有任何第3级(“重大进展”)和第4级(“里程碑式突破”)的结果。
Gemini Deep Think模式在计算机科学和物理领域也显示出潜力。第二篇论文基于类似的智能体推理思想,确定了有效的协作“配方”,特别是“顾问”模型,其中人类通过迭代的“Vibe-Proving”循环指导AI,以验证直觉和完善证明。还详细介绍了战术技术,如“平衡提示”(同时请求证明或反驳以防止确认偏差)和代码辅助验证。这些方法,结合模型通过深层结构连接不同科学领域的能力,正在改变理论研究的方式。这项工作建立在成功部署高级版Gemini Deep Think以协助审阅STOC‘26会议计算机科学理论论文的基础上。
通过与专家就18个研究问题进行协作,一个高级版本的Gemini Deep Think帮助解决了算法、机器学习与组合优化、信息论和经济学领域的长期瓶颈。来自论文《利用Gemini加速研究:案例研究与通用技术》的亮点包括:
跨越信息论、复杂性理论、密码学和机制设计等不同领域的结果展示了AI如何从根本上改变研究。
鉴于计算机科学以会议为导向的灵活发表流程,按学术轨迹而非严格的分类法来描述这些结果。大约一半的目标是强档会议——包括已接收的ICLR ’26论文——而其余大部分发现将构成未来的期刊投稿。即使通过识别错误或反驳猜想(第3.2节和第3.1节)来纠正领域方向,这些结果也凸显了AI作为高级科学协作者的价值。
基于某机构先前的突破,这项工作表明,通用基础模型——结合智能体推理工作流——可以充当强大的科学伴侣。
在数学、物理和计算机科学专家的指导下,Gemini Deep Think模式正在以复杂数学、逻辑和推理为核心的各个领域证明其实用性。
正在见证科学工作流程的根本性转变。随着Gemini的发展,它充当了人类智力的“力量倍增器”,处理知识检索和严格验证,使科学家能够专注于概念深度和创意方向。无论是完善证明、寻找反例,还是连接不相关的领域,AI正在成为科学进步下一章中宝贵的协作者。
感谢数学、物理和计算机科学领域的专家社区对此项目的帮助和建议。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。