“AI for Science”终于不只是聊天和读论文了

Henry Zhang

发布于 2026-07-03 20:45:32

题图摄于旧金山downtown

导语：近日，Anthropic 推出 Claude Science。官方定位是科研工作台：把研究者常用的软件、数据源和计算资源接进同一个环境；“可审计产物”则是让 AI 真正进入科研流程的一项关键设计。

一张结果图，为什么需要“出生证明”

如果课题组来了新人，你会怎么交接项目？是发给他一篇已经发表的论文，还是交给他一套能从原始数据一路跑到图 1、图 2 的材料：数据版本、清洗脚本、运行环境、参数设置，以及当初为什么这样选？

多数时候，我们交出去的是前者。于是科研里最熟悉的“恐怖故事”就出现了：师兄毕业、电脑换了、服务器清了一轮。论文还在，图也还在；原始数据在哪、代码怎么跑、软件版本是什么，却没人说得清。文件夹里只剩一个 final_v7_revised2。

这个问题并不新。美国国家科学院把可复现研究概括为：相同输入、相同步骤、相同方法和代码，应获得一致的计算结果。《自然》2016 年对 1,576 名研究者的调查也显示，超过七成受访者曾尝试复现他人实验却未成功。这不等于所有研究都不可靠，却提醒我们：只保存结论、不保存过程，迟早会出问题。

我更愿意把一项科研 AI 的交付物理解成“研究包”。说白了就三样：数据层留下原始文件和清洗脚本；代码层带上环境、版本和注释；决策层写清为什么这么设参数、如何处理异常值、哪些地方由人作了判断。图表有了这样的“出生证明”，后来的人才有机会回头核验。

Claude Science 的重点：把科研流程放进一个工作台

Claude Science 的野心，比“帮你读论文”大得多。Anthropic 把它定位为一个可定制的科研应用：研究者可在同一环境里分析文献、执行多步骤任务、生成图表和稿件，并调用本地机器、远程服务器或实验室高性能集群的算力。

它的特点在于，图表会连同生成它的代码、运行环境、说明文字和会话历史一起保留；提交新的计算任务前，系统会先给出计划并征求确认；不同分析路径可以分叉比较，不会覆盖原线程。它还预置了 60 多个科研技能和连接器，背后连接等量级科学数据库，并可接入实验室已有的模型、数据和流水线。

因此，“可审计”不能被理解成 Claude Science 的全部目的。更准确地说，它在解决一个很现实的问题：科研人员每天要在文献库、Jupyter、终端、数据库和集群之间来回切换。AI 若只在旁边聊天，价值有限；当它能把这些步骤串起来，并留下可复查的过程，才有机会成为真正的科研助手。

Anthropic 披露的 beta 案例也印证了这一点。Allen Institute 的 Jérôme Lecoq 用约 20 个自定义技能，把数千篇论文的提取、归纳、图表生成与复核编排进一条综述流水线；UCSF 团队将它用于胶质瘤种系变异分析；Manifold Bio 则借助它筛选组织靶向药物的候选靶点。这些是厂商披露的早期实践，效率数字不能照单全收；不过，三者的共同点很清楚：AI 开始参与“检索—计算—复核—交接”的连续流程。

行业新赛道：科研 AI 比拼的不再只是“答题能力”

Claude Science 并非孤例。4 月，OpenAI 发布 GPT-Rosalind，面向生物、药物发现和转化医学，强调把推理能力接进文献、数据、工具和实验等多步骤工作流；其 Codex 研究插件可连接 50 多个科学工具和数据源，但专用模型通过受信访问机制向合格机构开放。

5 月，Google 发布 Gemini for Science，推出假设生成、计算发现、文献洞察等实验性工具，并以 Science Skills 连接 30 多个生命科学数据库与工具。三家路线不同：OpenAI 更偏专用模型与受控部署，Google 更像一组科研探索工具，Anthropic 的亮点在于把“工作台”和“可审计产物”放到了前台。

它们共同指向同一趋势：科研 AI 正从“回答一个问题”走向“推进一段研究流程”。模型能力仍然重要，但工具连接、算力调度、数据权限、记录留痕，会越来越决定它能不能进入真实实验室。

客观提醒：完整证据链，不等于结论可靠

这里必须泼一盆冷水。Claude Science 的 reviewer agent 可以检查引文、计算、数字和图表是否与底层代码相符。这很有价值，但它不是同行评审，更像一个账房先生：账目对上了，不代表整门研究从一开始就做对了。

它未必能判断研究问题有没有意义、实验设计是否有根本缺陷、因果识别是否成立，更不一定发现 p-hacking——反复调整变量、样本区间或模型设定，只为凑出一个“显著”结果。AI 甚至可能把一个错误的默认参数、偏差的数据口径或先入为主的假设，包装成代码完整、图表漂亮、引文规范的成果。

未来最危险的科研 AI，不是胡说八道，而是一本正经地把错误自动化、规模化。关键节点的确认权、研究设计的判断权和最终解释责任，仍应留在研究者手里。

国内缺口：比起大模型，更缺科研底层工作台

中国高校和实验室真正缺的，往往不是再多一个会写代码和会读论文的大模型。很多课题组的数据仍散在个人硬盘、网盘和聊天记录里；软件、脚本、集群任务各自为政；学生毕业后，带走的不只是文件，还带走了整条研究路径。

更复杂的是数据合规。医学、企业合作和政府数据常常不能出域。Claude Science 的方案是让大数据留在研究者原有系统中，只把每一步分析所需的上下文发送给 Claude。这比“上传所有文件再聊天”更接近科研现场。但还要把话说得严谨一点：数据留在本地，并不等于模型完全本地化。哪些信息能发送、谁能访问、日志存在哪里，仍要经过本单位的数据治理和安全评估。

国内最值得投入的，是轻量、可部署、强制留痕的科研工作台：原始数据设为只读，防止手滑改废；清洗脚本和分析代码进入版本管理；依赖环境可一键复建；关键参数和人工修改自动写入日志；模型调用经过权限网关。它听起来没有“AI 科学家”那么炫，却决定了成果能否沉淀、交接和复核。