Nat. Commun. | 大科学与人工智能时代的知识传承: 可持续科学研究的策略

DrugAI

发布于 2026-05-29 13:34:36

920

DRUGONE

现代科学研究正在以前所未有的速度产生海量数据与复杂知识，但与此同时，科学界也正在不断丢失那些本不该失去的重要知识。大量阴性结果从未发表，研究人员多年积累的经验会随着人员流动而消失，知识保存工作则长期处于碎片化状态。这种现象导致科研资源浪费、重复性尝试增加，以及潜在重要发现被延误。

研究人员指出，当前科研共同体已经具备采取行动的条件。通过采用更加开放的知识传播渠道、改进研究记录与文档规范，以及建设可持续的数字基础设施，科学界有机会建立更加完整的知识保存体系。研究人员设想了一种新的科研生态：在其中，阴性结果与实践经验可以通过受监管的平台共享，社区共同制定标准，而 AI 工具则帮助研究人员降低实施与维护成本。在这一愿景下，未来科学研究不仅会更加开放和高效，也会更加具有韧性，使今天产生的知识能够真正服务于未来世代。

现代科学研究正在经历一次深刻转型。实验自动化、高通量技术以及计算能力的快速发展，使研究人员能够以前所未有的规模生成实验与模拟数据。在生命科学领域，自动化实验平台和高通量测序技术已经显著改变了研究模式，而大型计算模型与 AI 系统则能够生成海量理论预测，甚至从零设计新的生物系统。

与此同时，跨学科研究正在成为主流。现代科研往往需要实验、生物信息学、数学建模、软件工程以及 AI 方法共同协作。这使得研究数据不仅数量更大，而且形式更加复杂。如今的研究数据通常是多模态、异构化的，需要专门的软件、定制化分析流程以及领域知识才能被正确解释。

然而，传统科研知识保存体系并未跟上这一变化。虽然同行评议论文仍然是科学传播的核心形式，但研究人员指出，这种模式已经越来越无法满足现代科研需求。论文篇幅限制导致实验细节、参数设置以及关键 troubleshooting 经验无法完整记录；补充材料和外部数据库链接又常常缺失、难以维护或难以检索。与此同时，科研人员流动性增加，使大量隐性知识随着人员离开实验室而消失。

研究人员认为，如果不建立新的知识保存与传播机制，现代科学累积式发展的基础将受到威胁。因此，他们提出应当构建一种更加开放、可持续、社区驱动的新型科研知识生态系统。

科学研究中的“知识流失危机”

研究人员首先指出，当前科研体系正面临严重的可重复性与可重用性危机。

很多研究虽然发表了论文，但实际上并未提供足够信息来实现真正复现。实验中的关键细节、参数设置、失败经验以及隐性操作技巧往往没有被记录下来。此外，与论文相关的数据、代码、元数据、实验材料和分析流程也常常分散于不同平台，缺乏统一组织。

长期保存同样存在困难。实验室冷冻样本可能因为设备故障而损坏，软件依赖关系会随着时间失效，文件格式也不断变化，而许多项目结束后缺乏长期维护资金。研究人员特别强调，跨学科研究中的术语差异进一步加剧了知识保存问题。例如，“in vivo”“gene”等术语在不同领域中的含义可能并不相同。

研究人员还指出，科研成果的“可重用性”会随着时间不断下降。实验材料可能丢失、污染或误标记，代码会因为依赖环境变化而失效，而文档又不足以支持后续研究人员独立使用这些资源。随着原始研究人员离开，这些问题会进一步恶化。

阴性结果被系统性忽视

研究人员认为，现代科研体系最严重的问题之一，是对“失败结果”的系统性忽视。

当前学术出版体系普遍偏好显著性、创新性和阳性结果，而阴性结果、失败实验以及未能重复已有工作的研究通常难以发表。

这种偏差会产生严重后果：

Meta-analysis 会被阳性结果偏倚扭曲；
研究人员会不断重复别人已经失败过的实验；
理论模型会建立在不完整数据之上；
AI 模型也会继承并放大这种偏差。

研究人员强调，失败实验本身往往包含极其重要的信息。例如，一个实验为什么失败、哪些条件不可行、哪些理论路线最终无效，这些经验都能帮助未来研究者避免重复错误。遗憾的是，这类知识通常只存在于研究人员个人记忆中。

特别是在计算科学领域，大量隐性知识极易流失。例如：

哪些参数组合会导致模型不稳定；
哪些计算方法适合特定数据；
如何解释模糊的模型输出；
这些知识很难形式化，但对实际研究至关重要。

现有开放科学体系的进展与局限

研究人员随后分析了当前开放科学体系已经取得的进展。

近年来，FAIR 原则推动了数据的可发现性、可访问性、可互操作性和可重用性建设。BioFAIR、CURE 等框架也开始尝试建立更加规范的数据与模型标准。

在生命科学领域，大量专用数据库已经建立，例如：

PDB
GenBank
ENA
SynBioHub

与此同时，FASTA、GFF、SBOL 等标准文件格式也显著提升了数据互操作性。

GitHub、GitLab 等版本控制系统则改变了计算研究的可重复性，使代码协作与追踪更加透明。Galaxy 等工作流平台也提高了标准化分析能力。

实验领域同样出现了重要平台，例如：

Addgene 用于共享质粒资源；
LabArchives 用于记录实验流程；
AiiDA 用于追踪复杂计算工作流；
CellRepo 与 OpenBioSim 则开始记录实验 lineage 与质量标签。

研究人员认为，这些系统已经证明开放科学的可行性，但它们目前仍然彼此割裂，缺乏统一生态。

建立“失败知识”的共享平台

研究人员特别强调，未来科研必须系统性保存“科学失败”。

目前只有少数期刊愿意接受阴性结果，而很多小规模失败观察根本无法进入传统论文体系。研究人员因此提出，应建立经过适度监管、但不依赖传统同行评议的新平台，用于共享：

阴性结果
失败实验
troubleshooting 经验
小规模重复研究
方法学问题

这些平台应重点审核方法学合理性，而不是结果“是否新颖”。同时，每条记录都应具备 DOI，使失败实验也能够成为正式科研贡献。

研究人员认为，这种机制将从根本上改变科学界对“失败”的理解：失败不再是被隐藏的信息，而是科研知识体系的重要组成部分。

分布式知识保存体系

研究人员反对建立单一的“超级数据库”，而更倾向于一种联邦式、社区维护型知识网络。

他们提出，未来知识保存应采用：

分布式存储
社区协作维护
联邦式平台连接
AI 辅助管理

研究人员还提出了“元数据仓库”概念，用于连接论文、代码、实验材料、失败结果与相关分析，使科研成果形成一个完整、可检索的知识网络。

他们甚至以 fan fiction 社区的标签系统为例，说明社区驱动的标签机制可以帮助科研领域建立更加统一、可搜索的术语体系。

个体知识与隐性经验的保存

研究人员认为，科学研究中大量最有价值的知识其实是“隐性知识”。

例如：

如何调整复杂实验条件；
如何处理特殊软件环境；
哪些 undocumented 技巧能够提高实验成功率；
如何根据具体问题调整分析流程。

这些经验往往无法通过论文完整表达，却是科研成功的关键。

研究人员指出，学术界长期依赖短期合同与高流动性人才体系，这导致知识传承极不稳定。他们建议科研机构更多使用长期技术岗位，而不是过度依赖短期研究人员。

同时，未来平台还应支持：

视频记录
注释协议
交互式教程
AI 自动生成 protocol

例如 Cultivarium 的 PRISM 系统已经能够通过头戴设备录制实验过程，并自动生成带注释的视频协议。

教育、社区与跨学科协作

研究人员进一步指出，知识保存不仅是技术问题，更是教育与文化问题。

他们认为：

reproducibility 应成为科研训练核心；
coding groups、hackathons、peer mentoring 应被广泛推广；
生物学家需要学习 AI 与软件开发；
计算研究人员也必须理解实验背景。

只有真正跨学科协作，知识保存系统才能有效运行。

研究人员还强调：

workshops
summer schools
社区标准制定
living documentation

都将成为未来科研基础设施的重要组成部分。

AI 在知识保存中的角色

研究人员认为，AI 将成为未来知识保存生态的重要驱动力。

AI 可以：

自动生成元数据；
发现失效链接；
更新代码依赖；
自动整理文档；
提供 troubleshooting 建议；
帮助研究人员发现隐藏的阴性结果。

但研究人员同时强调，AI 只能“增强”人类，而不能替代人类判断。重要决策必须保留人工监督。

研究人员提出了一个重要概念：更好的知识保存会产生更强大的 AI；而更强大的 AI 又会降低知识保存成本。

这种“飞轮效应”可能持续推动科学研究效率提升。

图1. 面向可持续科学研究的知识保存框架，包括社区驱动标准、受监管知识共享平台、AI-in-the-loop 支持体系以及新型激励机制之间的协同关系。

讨论

研究人员最终指出，未来科研知识保存体系的核心并不是技术，而是“人”。

真正可持续的科研生态需要：

机构认可知识保存贡献；
基金支持开放科学实践；
社区建立共享文化；
AI 与人类形成协同关系；
科研人员拥有专门时间进行知识整理与传承。

研究人员强调，未来知识保存体系不会通过一次革命完成，而会通过大量渐进式改进逐步形成。现有工具、开放科学平台、AI 系统以及社区标准都会逐渐融合，最终构建一个跨越实验、计算与人员经验的“科学知识网络”。

在这一体系中，今天产生的科研知识将不再随着时间流失，而会持续被连接、解释、重用与扩展，从而真正形成面向未来世代的可持续科学基础设施。

整理 | DrugOne团队

参考资料

Rainford, P.F., Occhipinti, A., Wang, B. et al. Knowledge preservation in the era of big science and AI: strategies for sustainable scientific research. Nat Commun 17, 4069 (2026).

https://doi.org/10.1038/s41467-026-72667-3

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-27，如有侵权请联系 cloudcommunity@tencent.com 删除

nat