

文献来源:Korn M, Ehrt C, Ruggiu F, Gastreich M, Rarey M. Navigating large chemical spaces in early-phase drug discovery. Current Opinion in Structural Biology, 2023, 80: 102578. DOI:10.1016/j.sbi.2023.102578 发表时间:2023 年 4 月 4 日
早期药物发现的核心任务是:在庞大的化学宇宙中高效定位具有生物活性、满足多重药理学标准的小分子候选药物。
在传统模式下,高通量筛选(High-Throughput Screening, HTS)——无论是实验性 HTS 还是虚拟 HTS——是寻找先导化合物的主流手段。然而,这一范式面临根本性瓶颈:
近年来,三种技术路线的汇聚正在打破上述范式限制,推动早期药物发现进入大化学空间导航时代:
技术路线 | 核心优势 | 代表规模 |
|---|---|---|
按需合成的组合化学空间(Make-on-Demand Spaces) | 高合成成功率、低成本、可购买 | 10⁸ ~ 10¹² |
生成式机器学习(Generative ML) | 探索前所未见的分子多样性 | 理论无限 |
DNA 编码库(DELs) | 实验端亿级化合物同步筛选 | 10⁸ ~ 10¹² |
这三种技术相互独立又彼此互补,共同构成了新一代早期药物发现的计算与实验平台。

规模的爆炸性增长对计算方法提出了全新要求。作者将核心计算问题归结为两个几乎正交的子问题:
传统的顺序处理(sequential processing)算法在十亿量级以上已完全失效,这驱动了一系列基于组合优化和机器学习的新型化学信息学工具的快速发展。
最直接的化学空间生成方式是对所有可能的有机小分子进行系统性枚举。以 GDB-17(化学宇宙数据库)为代表,该工作对最多含 17 个重原子的所有有机分子进行了枚举,得到约 1,660 亿个结构。
然而,全枚举方法的根本局限在于:生成的大量化合物合成难度极大,无法满足早期药物发现对"可合成性"的核心需求。
这是目前最具实用价值的化学空间生成策略,其核心思路是:
用合成反应规则 + 构建块(building blocks/synthons)来隐式描述化学空间,而非显式枚举所有化合物。

主要技术路线:
(1)逆合成切割与重组(Retrosynthetic Fragmentation)
(2)基于稳健反应的正向合成设计
(3)开源工具支持
化学空间的两种形式:
一般化学空间(General Chemical Space)
├── 包含完整分子(来自 ELN 抓取、枚举过滤、ML 生成)
└── 片段化学空间(Fragment Space)← 特殊子类
├── 由"切碎"完整分子(逆合成拆分)生成
└── 由反应规则正向应用于合成子生成(如 REAL Space)生成式 ML 代表了一种完全不同的化学空间探索哲学——无需显式定义化学空间,直接生成满足期望性质的分子。
主要模型架构:
模型类型 | 代表架构 | 特点 |
|---|---|---|
循环神经网络 | RNN(SMILES 生成) | 训练简单,但生成分子多样性有限 |
生成对抗网络 | GAN | 可生成高多样性分子,训练稳定性差 |
变分自编码器 | VAE | 连续潜空间,支持属性导向优化 |
扩散模型(新兴) | 图扩散、3D 扩散 | 可直接生成三维构象 |
特别值得关注的进展:
核心局限:生成式 ML 产生的分子往往合成可行性未知,需配合合成可行性预测模型(如 Gao & Coley, 2020)进行过滤,或直接训练合成感知生成模型。

DELs 可视为实验端的"化学空间生成与搜索一体化"技术,详见第五节。
分子相似性虚拟筛选是计算药物发现中最经典的工具,主要依赖:
对于十亿量级以下的数据库,顺序搜索算法仍可接受。但面对片段空间中的 10¹²~10¹⁵ 量级,传统方法彻底失效。
(1)FTrees-FS(2001)——第一个精确组合搜索算法
(2)CATS(Chemically Advanced Template Search)
(3)SpaceLight(2021)——指纹相似性搜索的组合算法
(4)SpaceMACS(2022)——最大公共子结构的精确搜索
(5)SmallWorld(NextMove Software)
基于分子形状叠合的虚拟筛选对于发现具有相同蛋白结合模式但拓扑结构差异较大的化合物尤为重要:
三维搜索的根本挑战: 与拓扑搜索不同,三维搜索通常不满足组合优化所需的"局部解可组合为全局解"的条件(partial solution independence),因此精确组合算法的设计极为困难。作者判断:在三维搜索领域,启发式方法将在未来数年内持续主导。
当靶蛋白的实验结构或高质量同源模型可用时,分子对接(molecular docking)是探索大化学空间中真正新颖生物活性分子的最无偏差方法。其流程为:
然而,传统对接工作流的根本瓶颈是:对于十亿~百亿量级的文库,逐一对接在运行时间和硬件资源上完全不可行。
组合思维在基于结构的药物设计(SBDD)中有悠久历史,关键进展包括:
方法/工具 | 年份 | 策略 |
|---|---|---|
LUDI | 1992 | 基于片段的酶抑制剂从头设计 |
GroupBuild | 1993 | 片段叠加与生长 |
FlexNovo | 2006 | 大型片段空间中的结构搜索 |
ALTA-VS | 2006 | β-分泌酶抑制剂的计算发现 |
历史局限:上述方法生成的分子往往合成可行性极差,大幅限制了实际应用价值。
随着可合成片段空间的成熟,结构导向的化学空间搜索进入新阶段:
(1)片段延伸策略(Fragment Extension)
代表工作:
(2)"晶体结构优先"策略(Crystal Structure First)
Müller 等(2022)提出的 "Magnet for the Needle in Haystack" 策略:
(3)进化搜索策略
Galileo 和系统进化化学空间探索(Lu et al., 2022)将进化算法引入化学空间搜索,通过迭代优化在三维空间中高效寻找活性分子。
Penner 等(2020)建立了贴近真实交叉对接场景的评估基准,为上述方法的系统性比较提供了标准框架,推动了该领域的良性发展。
DNA 编码库(DNA-Encoded Libraries)技术由 Brenner & Lerner 于 1992 年提出,其核心是:
将每个化合物用唯一的 DNA/RNA 序列标记,从而实现亿级化合物的并行合成与筛选。
标准筛选流程(Panning):
DEL 文库
↓ 与固定化靶蛋白孵育
结合物 + 非结合物混合物
↓ 洗涤去除非结合物
富集的结合物(DNA 标签完整)
↓ DNA 高通量测序
命中物的化学结构解码
↓ 频率统计 + 聚类分析
苗头化合物家族鉴定信号去噪关键:
DEL 技术与 ML 的深度整合正在开辟新范式:
(1)分类模型——从 DEL 数据构建虚拟筛选模型 McCloskey 等(2020, J. Med. Chem.)发表了 DEL 数据训练 ML 分类模型的首个成功案例:
(2)回归模型——结合亲和力排序预测 Ma 等(2021, NeurIPS AI4Science Workshop)展示了 DEL 数据上的回归 ML 模型:
(3)数据去噪的方法学进展
现有局限:
进展方向:
供应商 | 化学空间名称 | 规模 | 定位 |
|---|---|---|---|
Enamine | REAL Space | ~3.6 × 10¹⁰ | 类药性、可购买性 |
WuXi LabNetwork | GalaXi | ~1.2 × 10¹⁰ | 早期苗头发现 |
OTAVA | CHEMriya | ~1.2 × 10¹⁰ | 早期苗头发现 |
eMolecules | eXplore | ~7.0 × 10¹² | 自合成(DIY) |
Chemspace | Freedom Space | ~1.8 × 10⁸ | 构建块可用性 |
Mcule | ULTIMATE | ~1.4 × 10⁸ | 苗头发现与扩展 |
核心价值:
大型制药公司通常将公有与私有构建块结合,构建远超商业空间规模的专有企业化学空间:
公司 | 化学空间名称 | 规模 |
|---|---|---|
GSK | GSK-XXL | 10²⁶ |
Johnson & Johnson | JFS | 10¹⁹ |
Merck/EMD | MASSIV | 10²⁰ |
Pfizer | PGVL | 10¹⁸ |
Boehringer Ingelheim | BICLAIM | 10¹⁷ |
AstraZeneca | AZ Space | 10¹⁵ |
Eli Lilly | PLC | 10¹¹ |
注:Eli Lilly 已通过机器人验证其底层化学,使 PLC 搜索结果具有极高的可操作性。
(a)CB2 受体抑制剂(Sadybekov et al., 2022, Nature)
**(b)ROCK1 激酶抑制剂(Beroza et al., 2022, Nat. Commun.)**
(c)ROS1 激酶抑制剂(Petrovic et al., AstraZeneca, 2022)
工业界成本效益分析:
化合物 | 靶标 | 研究机构 | 临床状态 |
|---|---|---|---|
GSK'481(GSK2982772) | RIPK1 | GSK | 临床 II 期(炎症性疾病) |
溶解性环氧水解酶抑制剂 | sEH | GSK | 临床 II 期(经分子瘦身优化) |
ENPP2(自分泌素)抑制剂 | ENPP2 | X-Chem | 临床 I 期(特发性肺纤维化) |
更多 DEL 来源化合物正在 2023 年进入临床试验(DICE Therapeutics、Nurix Therapeutics 等)。
技术 | 核心局限 | 非本质? |
|---|---|---|
按需合成空间 | 环系复杂性不足,立体中心和特殊官能团覆盖有限;对完整 SAR 探索仍力不从心 | ✅ 年增长率高,持续改善 |
生成式 ML | "理论可合成"≠"货架可购买";需要昂贵个性化合成 | ✅ 合成可行性模型持续进步 |
DELs | DNA 兼容反应有限;多样性受约束;固定化靶标需求 | ✅ 反应空间扩展中,非固定化靶标方法成熟中 |
三维搜索 | 精确组合算法难以实现;目前以启发式方法为主 | ⚠️ 理论上更具挑战性 |
近期(1-3 年):
中期(3-5 年):
这是本综述的一个独特亮点——作者专门从能源效率与可持续性视角审视这些新兴技术:
DEL 的绿色优势:
组合化学空间的绿色计算优势:
这一视角与当前学术界和产业界对碳足迹与可持续创新的关注高度契合,为这类技术的长期价值提供了额外论据。
本文发表于 Current Opinion in Structural Biology(COSB)的"Drug Discovery New Concepts 2023"专题,由 Andrew R. Leach 和 Alison E. Ondrus 主编。COSB 的综述特点是:篇幅精炼、聚焦前沿、强调作者观点。本文在约 9 页的篇幅内实现了以下目标: