

题图摄于旧金山downtown
导语:近日,Anthropic 推出 Claude Science。官方定位是科研工作台:把研究者常用的软件、数据源和计算资源接进同一个环境;“可审计产物”则是让 AI 真正进入科研流程的一项关键设计。
如果课题组来了新人,你会怎么交接项目?是发给他一篇已经发表的论文,还是交给他一套能从原始数据一路跑到图 1、图 2 的材料:数据版本、清洗脚本、运行环境、参数设置,以及当初为什么这样选?
多数时候,我们交出去的是前者。于是科研里最熟悉的“恐怖故事”就出现了:师兄毕业、电脑换了、服务器清了一轮。论文还在,图也还在;原始数据在哪、代码怎么跑、软件版本是什么,却没人说得清。文件夹里只剩一个 final_v7_revised2。
这个问题并不新。美国国家科学院把可复现研究概括为:相同输入、相同步骤、相同方法和代码,应获得一致的计算结果。《自然》2016 年对 1,576 名研究者的调查也显示,超过七成受访者曾尝试复现他人实验却未成功。这不等于所有研究都不可靠,却提醒我们:只保存结论、不保存过程,迟早会出问题。
我更愿意把一项科研 AI 的交付物理解成“研究包”。说白了就三样:数据层留下原始文件和清洗脚本;代码层带上环境、版本和注释;决策层写清为什么这么设参数、如何处理异常值、哪些地方由人作了判断。图表有了这样的“出生证明”,后来的人才有机会回头核验。
Claude Science 的野心,比“帮你读论文”大得多。Anthropic 把它定位为一个可定制的科研应用:研究者可在同一环境里分析文献、执行多步骤任务、生成图表和稿件,并调用本地机器、远程服务器或实验室高性能集群的算力。
它的特点在于,图表会连同生成它的代码、运行环境、说明文字和会话历史一起保留;提交新的计算任务前,系统会先给出计划并征求确认;不同分析路径可以分叉比较,不会覆盖原线程。它还预置了 60 多个科研技能和连接器,背后连接等量级科学数据库,并可接入实验室已有的模型、数据和流水线。
因此,“可审计”不能被理解成 Claude Science 的全部目的。更准确地说,它在解决一个很现实的问题:科研人员每天要在文献库、Jupyter、终端、数据库和集群之间来回切换。AI 若只在旁边聊天,价值有限;当它能把这些步骤串起来,并留下可复查的过程,才有机会成为真正的科研助手。
Anthropic 披露的 beta 案例也印证了这一点。Allen Institute 的 Jérôme Lecoq 用约 20 个自定义技能,把数千篇论文的提取、归纳、图表生成与复核编排进一条综述流水线;UCSF 团队将它用于胶质瘤种系变异分析;Manifold Bio 则借助它筛选组织靶向药物的候选靶点。这些是厂商披露的早期实践,效率数字不能照单全收;不过,三者的共同点很清楚:AI 开始参与“检索—计算—复核—交接”的连续流程。
Claude Science 并非孤例。4 月,OpenAI 发布 GPT-Rosalind,面向生物、药物发现和转化医学,强调把推理能力接进文献、数据、工具和实验等多步骤工作流;其 Codex 研究插件可连接 50 多个科学工具和数据源,但专用模型通过受信访问机制向合格机构开放。
5 月,Google 发布 Gemini for Science,推出假设生成、计算发现、文献洞察等实验性工具,并以 Science Skills 连接 30 多个生命科学数据库与工具。三家路线不同:OpenAI 更偏专用模型与受控部署,Google 更像一组科研探索工具,Anthropic 的亮点在于把“工作台”和“可审计产物”放到了前台。
它们共同指向同一趋势:科研 AI 正从“回答一个问题”走向“推进一段研究流程”。模型能力仍然重要,但工具连接、算力调度、数据权限、记录留痕,会越来越决定它能不能进入真实实验室。
这里必须泼一盆冷水。Claude Science 的 reviewer agent 可以检查引文、计算、数字和图表是否与底层代码相符。这很有价值,但它不是同行评审,更像一个账房先生:账目对上了,不代表整门研究从一开始就做对了。
它未必能判断研究问题有没有意义、实验设计是否有根本缺陷、因果识别是否成立,更不一定发现 p-hacking——反复调整变量、样本区间或模型设定,只为凑出一个“显著”结果。AI 甚至可能把一个错误的默认参数、偏差的数据口径或先入为主的假设,包装成代码完整、图表漂亮、引文规范的成果。
未来最危险的科研 AI,不是胡说八道,而是一本正经地把错误自动化、规模化。关键节点的确认权、研究设计的判断权和最终解释责任,仍应留在研究者手里。
中国高校和实验室真正缺的,往往不是再多一个会写代码和会读论文的大模型。很多课题组的数据仍散在个人硬盘、网盘和聊天记录里;软件、脚本、集群任务各自为政;学生毕业后,带走的不只是文件,还带走了整条研究路径。
更复杂的是数据合规。医学、企业合作和政府数据常常不能出域。Claude Science 的方案是让大数据留在研究者原有系统中,只把每一步分析所需的上下文发送给 Claude。这比“上传所有文件再聊天”更接近科研现场。但还要把话说得严谨一点:数据留在本地,并不等于模型完全本地化。哪些信息能发送、谁能访问、日志存在哪里,仍要经过本单位的数据治理和安全评估。
国内最值得投入的,是轻量、可部署、强制留痕的科研工作台:原始数据设为只读,防止手滑改废;清洗脚本和分析代码进入版本管理;依赖环境可一键复建;关键参数和人工修改自动写入日志;模型调用经过权限网关。它听起来没有“AI 科学家”那么炫,却决定了成果能否沉淀、交接和复核。
未来一两年,科研 AI 工具可能多出一个朴素却严格的测试:把一个陌生研究者放进工作台,他不追问原作者,也能看懂图表从哪里来、代码怎么跑、哪些决定影响了结果。
Claude Science 给出的启发,并非“AI 已经会替科学家做研究”,而是科研 AI 终于开始尝试承担流程责任。科学的核心精神,从来不是相信一段看起来正确的话;它允许任何人沿着证据链,一步一步走回来,重新检验它。