

文献来源: Müller J, Klein R, Tarkhanova O, et al. "Magnet for the Needle in Haystack: 'Crystal Structure First' Fragment Hits Unlock Active Chemical Matter Using Targeted Exploration of Vast Chemical Spaces." J. Med. Chem. 2022, 65, 15663–15678. DOI: 10.1021/acs.jmedchem.2c00813 合作机构: CrystalsFirst GmbH(德国马尔堡)· BioSolveIT GmbH · Enamine Ltd.(乌克兰基辅)· Chemspace LLC · 菲利普斯-马尔堡大学
早期药物发现的核心任务是从化学空间中找到能与靶蛋白结合的"苗头化合物"(hit compounds)。当前主流策略包括:
FBDD 以分子量通常低于 300 Da、重原子数少于 20 个的"片段"分子为起点,其核心优势在于:
然而,FBDD 传统路径中的生物物理预筛选级联存在严重缺陷。多项研究(Schiebel et al., 2016;Chang et al., 2021)表明,不同生物物理方法(SPR、ITC、NMR、TSA 等)在平行筛选中所识别片段的重叠率极低,大量真实结合片段在进入 X 射线结晶验证之前便已被过滤丢弃。这意味着以活性/亲和力为导向的预筛选策略,本身就存在系统性漏报风险。
本文针对上述问题,提出并验证了一套以 X 射线晶体结构为唯一起点、彻底绕过生物物理亲和力预筛选的全新工作流——"Crystal Structure First"(晶体结构优先),并将其与 Enamine 26 亿分子量级的 REAL Space 化学空间对接相结合,实现从结构确认的片段到纳摩尔级活性化合物的高效跨越。

PKA(cAMP 依赖性蛋白激酶)是研究最为深入的丝/苏氨酸激酶之一,其 ATP 结合位点(催化区)是本研究的作用靶点。研究团队选择 PKA 的主要原因在于:
从 19 个高可信度晶体结构(依据配体密度质量、占有率、RMSD 等标准筛选)中,仅凭结合模式,不考虑任何亲和力数据,选出 4 个化学多样性良好的铰链区结合片段:
片段 | PDB ID | 关键药效基团 | HYDE 优化后 RMSD |
|---|---|---|---|
Frag1 | 5N3Q | 伯酰胺(primary amide) | 0.297 Å |
Frag2 | 5N33 | 内酰胺(lactam) | 0.431 Å |
Frag3 | 5N1L | 吡啶(pyridine) | 0.696 Å |
Frag4 | 5N7P | 伯胺/腈基(primary amine/nitrile) | 0.749 Å |
评估工具: HYDE 评分函数(SeeSAR v10.1)——首先对片段姿态进行氢键几何、分子内构象应变和空间碰撞的预优化,再估算结合自由能。RMSD 偏差小的片段表明晶体学结合模式与力场优化结果高度一致,可信度更高。 对照被排除的 Frag5(PDB: 5N3H):HYDE 优化后姿态偏离铰链区,与晶体结合模式存在显著差异,予以排除。
整个计算流程分为三个串联步骤,形成从晶体片段到亿级候选分子再到精选合成列表的完整漏斗。

目标: 将 Enamine REAL Space 中所有可用的反应砌块("synthons",即虚拟合成子,共 208,293 个)对接至以晶体片段坐标为模板的结合位点,筛选空间位置匹配的砌块。
核心算法:FlexX(SeeSAR 集成版本)基于最大公共子结构(MCS)的模板对接
产出: 每个晶体片段对应约 300–8,900 个唯一匹配砌块(Frag3 因吡啶环在 REAL Space 中高度表征而数量最多)。

目标: 利用 Enamine 专有的反应知识库,将步骤一筛选出的 50 个 REAL Space 砌块,按照其各自携带的"反应向量"(reaction vector)枚举成完整的二组分反应产物。
本研究使用的化学空间版本(REAL Space 2020-07,两组分反应)基于 173 种反应和 110,269 个砌块,理论上覆盖 26.57 亿个虚拟产物。
目标: 对步骤二产出的约 200 万化合物进行第二轮对接,此次以步骤一中各砌块的对接姿态为模板(而非晶体片段),保留整个分子的扩展方向。



106 个候选物经 Enamine 按需合成(Make-On-Demand),成功合成 93 个化合物(合成成功率 88%),所有化合物纯度 ≥ 95%(LC/MS 或 ¹H NMR 确认)。
涉及的主要合成转化类型(共 21 种程序):
转化类型 | 代码 | 典型应用簇 |
|---|---|---|
Suzuki 偶联 | T1 | c2, c4 |
酰胺偶联 | T2 | c1, c2 |
脲形成 | T3 | c3 |
烷基化/还原胺化 | T4 | c1, c3 |
芳基化 | T5 | c4 |
磺酰胺形成 | T6 | c1, c4 |

采用商业化 Z'-LYTE 激酶测定试剂盒(Invitrogen/Thermo Fisher,Ser-Thr 1 肽),以荧光比率法定量磷酸化肽的生成,通过 Cheng–Prusoff 方程(ATP KM = 3.8 µM)将 IC₅₀ 换算为 Ki 值,三重复测定。
关键结果:
为与工业界常规筛选流程进行直接比较,在两种条件下对所有化合物进行 TSA:
关键发现(对 FBDD 传统范式的直接挑战): 将四个初始片段(Frag1–4)在相同条件下测定:
这意味着,若按照工业界标准 TSA 流程进行预筛选,这四个片段将全部被排除,后续所有活性化合物的发现将无从实现。
对 88 个化合物进行 CA(牛红细胞来源)TSA 筛选,验证对 PKA 的选择性。仅 EN020(含芳基磺酰胺结构)显示弱 CA 活性,而 EN020 对 PKA 无活性——确认其余活性化合物对 PKA 的结合具有特异性,排除非特异性聚集等假阳性干扰。
选取各簇最活跃化合物共 13 个进行共结晶(sitting-drop 蒸汽扩散法,4°C,18–23% 甲醇沉淀剂),数据在 DESY(汉堡,P11 束线)和 BESSY II(柏林,14.1 束线)收集,100 K,波长 1.033 Å。

命中化合物与关键结构特征(依据晶体结构):
化合物 | Ki | PDB | RMSD(对接 vs 晶体) | 关键相互作用 |
|---|---|---|---|---|
EN088 | 85 µM | 7PIG | 1.43 Å | 氯原子填充 Leu49/Leu173/Phe327 疏水口袋;哌啶仲胺水媒介 H 键至 Glu170/Thr183 |
EN086 | 390 µM | 7PIF | 0.89 Å | 伯氨基多重 H 键至 Asn171/Asp184;水媒介 H 键至 Glu127/Glu170;四氢吡喃朝向溶剂 |
EN060 | 955 µM | 7PID | 2.62 Å | 吗啉氮 H 键至蛋白;水媒介 H 键至 Thr183/Asp184 |
EN068 | 2101 µM | 7PIE | 1.75 Å | 吗啉氮直接 H 键至 Asp184;六元脂肪环构象较灵活(占有率 87%) |
EN081 | 174 µM | 7PNS | 1.52 Å | 吲哚部分相对初始片段 Frag4 有扭转,铰链 H 键受影响;二甲氨基电子密度无法解析 |
模糊算法的重要作用: c4 簇的 5 个命中化合物均包含六元脂肪环作为铰链结合基元,而 Frag4 本身携带的是五元吡唑环。这种"五元→六元"环扩展的匹配,正是由 FlexX 的模糊 MCS 算法实现的,体现了算法在结构多样性探索上的优势。


EN093 是本研究活性最强的化合物,其共晶结构(PDB: 7PIH,分辨率 1.37 Å)揭示了以下精细结合模式:

立体化学的精细分析: 对接模型预测 S,R-构型;晶体结构(外消旋体结晶)显示 R,R-构型为主要物种。分别合成 R- 和 S-构型对映体后的功能测定表明:S-构型(744 nM)略优于 R-构型(3.1 µM),考虑到测定精度,两者差异约为 4 倍。这为后续消旋稳定化修饰和立体选择性合成路线的 SAR 研究提供了重要线索。

指标 | 数值 |
|---|---|
化学空间规模 | 26.57 亿虚拟产物 |
初始晶体片段数 | 4 |
对接候选物(筛后) | 3,231 |
委托合成 | 106 |
合成成功 | 93(88%) |
功能测定活性(Ki < 500 µM) | 40(40%) |
共晶结构解析 | 6 |
最大亲和力提升 | 13,500 倍(片段 → EN093) |
总周期 | 9 周 |
计算资源节省 | 约 10 倍(vs 传统全库对接) |
传统 HTS 通常以 1% 命中率获取 µM 级苗头,化合物分子量 300–500 Da,后续需要大量 SAR 优化,且结构信息稀缺。本研究以 40% 命中率、在 9 周内获得多个 nMµM 级化合物,且全部伴随清晰的 SAR 脉络和至少部分共晶结构——是对 HTS 模式的有力补充乃至替代。
本研究最具挑战性意义的发现之一:所有初始片段在工业界标准 TSA(低浓度 setup 2)条件下均未被检出,这与文献中记录的多种生物物理方法之间命中重叠率低的现象一致。作者将此视为直接证据,支持"预筛选级联本身会系统性遗漏片段命中物"的论断,并为"晶体结构优先"路径的合理性提供了最有力的注脚。
优势:
局限与前提:
作者指出,本研究获得的化合物和结构数据,可直接作为第二轮"化学空间对接"的输入,通过 Tanimoto 相似性阈值的调整,系统性地探索各活性骨架周围的 SAR。EN093(c2 簇)的伯氨基-Asn171/Asp184 氢键锚定模式,以及 EN088(c4 簇)的氯取代疏水填充模式,均为下一轮优化提供了清晰的结构基础。
本文引用了 KEAP1(Astex)和 pan-RAS(Boehringer Ingelheim)的案例,说明在蛋白质-蛋白质相互作用(PPI)和浅表结合口袋等传统 HTS 难以奏效的场景中,"晶体结构优先"策略的价值尤为突出。将本文工作流与 Pan-RAS 等靶点的大规模晶体学片段筛选(如 XChem 平台)相结合,是一个值得期待的研究方向。
作者以三个相互支撑的能力概括了本方法的成功要素:
(a) 高质量晶体学片段命中物的高效获取
↕
(b) 亿级化学空间的定向子枚举与计算筛选
↕
(c) 基于可预测反应知识的按需合成这三者的协同,使得从结构到活性分子的"最后一公里"变得可预期、可复现、可扩展,为制药行业早期发现阶段提供了一套经过实验验证的系统性解决方案。