

来源:What Happens in Successful Optimizations? A Survey of 2018–2024 Literature, Paul D. Leeson, Journal of Medicinal Chemistry 2026 69 (6), 6337-6395 作者:Paul D. Leeson(Paul Leeson Consulting Ltd) DOI:10.1021/acs.jmedchem.5c03171
从苗头化合物(hit)到临床候选药物(candidate)的优化过程,是药物化学的核心实践。然而,长期以来,药物化学界对"成功优化究竟发生了什么"的认识,主要依赖小规模数据集或单一靶标类别的经验积累,缺乏系统性的定量分析。
本文作者 Paul Leeson 自2018年起,历时数年,从2018—2024年的药物化学文献中手工阅读并筛选,最终收集了 487对起始化合物→候选药物的优化对(start-to-candidate pairs),涵盖498个候选药物,是迄今为止从公开文献中构建的最大规模此类数据集。
分析维度涵盖:靶标类别、疾病领域、起始化合物来源、作用机制、给药途径,以及超过30项分子理化性质的系统性变化规律。
值得注意的是,由于文献发表滞后,数据集所代表的实际创新高峰期为2011—2019年(专利优先权日中位年份为2014年),平均从专利申请到文献发表间隔约7年。


来源类型 | 占比 | 说明 |
|---|---|---|
多样性筛选(HTS / DEL / 表型筛选) | 37% | 最主要来源,远高于前人报道的21% |
已知文献化合物 | 27% | 预优化程度不等 |
已上市药物 | 12% | 内置优化属性 |
聚焦筛选(虚拟筛选 / SBDD / 配体筛选) | 12% | 结合靶标信息 |
药效团假说设计 | 7% | 主观性较强 |
片段筛选(FBDD) | 5% | 低分子量,高增长空间 |
方法论差异说明: 本研究相较于Brown(2023)等前期工作,将来自多样性筛选的比例从21%修正至37%,原因在于本研究追溯了"已知化合物"的原始筛选来源,避免了来源误判。
激酶(28%)> 其他酶(22%)> GPCR(15%)> 蛋白酶(6%)> 离子通道(6%)= 核激素受体(6%)
性质 | 起始化合物(均值) | 候选药物(均值) | 变化量 | 增加概率 |
|---|---|---|---|---|
分子量 MW(Da) | 404 | 485 | +81 | 83.2% |
重原子数 HA | 28.6 | 34.4 | +5.73 | 80.3% |
XLogP3 | 3.1 | 3.0 | -0.1(无显著变化) | 44.4% |
cLogP | 3.2 | 3.0 | -0.2 | 42.9% |
HBA | 5.06 | 7.08 | +2.02 | 74.5% |
HBD | 1.78 | 1.90 | +0.11(无显著变化) | 30.6% |
TPSA(Ų) | 90.9 | 109 | +17.6 | 71.0% |
Csp³ 原子数 | 6.78 | 9.55 | +2.77 | 73.7% |
芳香氮原子数 ArN | 1.88 | 2.65 | +0.77 | 46.4% |
F 原子数 | 0.56 | 1.15 | +0.60 | 37.2% |
杂芳香环数 | 1.26 | 1.72 | +0.46 | 42.1% |
碳芳香环数 | 1.48 | 1.26 | -0.22 | 15.4%(减少) |
手性中心数 | 0.99 | 1.55 | +0.56 | 41.4% |
MCE-18(复杂度) | 52.7 | 80.7 | +27.9 | 84.8% |
p(activity) | 6.9 | 8.4 | +1.5 | 80.8% |
LLE(LipE) | 3.7 | 5.3 | +1.6 | 78.7% |
LE | 0.35 | 0.35 | 0(无显著变化) | 49.9% |


① 分子量增长是药物优化的"内在驱动力"
MW平均增长81 Da,与体外活性(p(activity))平均提升1.5个单位强相关,反映了增大范德华接触面积对结合亲和力的贡献。从不同起始来源看,"MW距离"与其所需的活性提升幅度成正比:片段筛选苗头(+191 Da)> 多样性筛选(+76 Da)> 已知化合物(+40 Da)> 已上市药物(+27 Da)。
② 亲脂性的精准控制——优化的最难之处
平均亲脂性几乎不变(ΔXLogP3 = -0.1),但这一平均值掩盖了大量个体变化:约50.9%的案例亲脂性增加,44.4%降低。片段筛选起点是唯一平均亲脂性显著增加的类别(+1.4),而多样性筛选起点的亲脂性则平均降低(-0.5)。这说明在分子量增长的同时维持亲脂性稳定,是药物化学家主动为之的结果,而非自然发生。
③ HBA显著增加,HBD几乎不变
HBA平均增加2.02,而HBD仅增加0.11(无统计学显著性)。这一不对称性反映了一条清晰的策略:通过增加极性H键受体(而非供体)来控制亲脂性,同时避免HBD增加对膜通透性的负面影响。HBA/HBD比值随时间持续增大,是当代候选药物的重要趋势。
④ 配体效率(LE)不变,LLE显著提升
LE(= p(activity)×1.37/HA)在整体数据集中均值不变,是因为HA和活性同步增加所致。但LLE(= p(activity) − XLogP3)平均增加1.6,显示在亲脂性控制下活性的净提升,是衡量优化质量更敏感的指标。仅在多样性筛选亚组中,LE有小但显著的提升(+0.02, p=0.0012)。


HA平均增加5.73,其来源按贡献排序:
以上六类原子合计贡献了HA增量的98%。
通过将各性质除以HA数进行归一化,识别出真正超比例增长的性质(即在候选药物中密度显著提升的性质):
超比例增长(>50%优化对增加,且归一化值显著提升):
超比例增长但增加概率<50%(高影响但非普遍):
与HA等比例增长(密度不变):
低于HA比例增长(密度下降):
以手性中心、杂脂肪环、碳脂肪环三个参数的联合变化作为"脂肪复杂性"的代理指标:
这一分析清晰地表明,引入脂肪复杂性是现代药物优化的主旋律,而非例外。
碳芳香环(主要为苯环)平均减少0.22个,而杂芳香环平均增加0.46个。这一反向趋势在所有靶标类别和起始来源中均保持一致,是最具普遍性的结构优化规律之一。
其背后的化学逻辑包括:
487对优化数据中,前46种环系统(出现≥5次)覆盖了全部环系统的77.1%。在候选药物中出现频率显著高于起始化合物的环系统包括:
吡啶 > 环丙烷 > 吡唑 > 吡咯烷 > 吗啉 > 嘧啶 > 吡喃 > 噁丁环(oxetane)
其中噁丁环在起始化合物中完全未出现,但在11个候选药物中出现。这些环系统同时也是天然产物片段,印证了NP骨架的核心地位。
激酶起始化合物具有最高的杂芳香环密度,但在优化过程中杂芳香环密度下降,与其他靶标类别(均为增加)相反。这是因为激酶苗头化合物通常富含杂环(针对ATP结合口袋的已有认知),优化过程反而需要引入更多脂肪性成分来改善选择性。
与非FBDD候选药物相比,FBDD候选药物具有:
这一特征在本研究(n=23)中与文献报道的54个FBDD临床化合物高度一致。
FBDD起始化合物在碳芳香环和杂芳香环密度上几乎无变化,这与其他策略(起始化合物芳香环密度显著变化)形成对比。这可能反映了:一方面片段苗头本身已富含芳香性;另一方面,FBDD的增长策略倾向于在保留核心片段的基础上进行三维延伸。
研究使用Over等(2013)定义的NP片段库,分析了每个优化对中NP片段数的变化:
基于Greiner等(2025)的PNP分类:
这与临床化合物整体趋势吻合:PNP占比从1990年代的30%上升至2010年后的67%,反映了NP骨架在现代药物设计中的深远影响。
起始来源 | MCS均值(%) |
|---|---|
已上市药物 | 77.6 |
已知化合物 | 71.2 |
药效团假说 | 78.0 |
聚焦筛选 | 70.6 |
片段筛选 | 75.0 |
多样性筛选 | 63.9(最低) |
多样性筛选起点MCS最低,与其起始化合物质量最参差不齐、需要更大改造幅度相符。
MCS高达70%意味着:选对起始化合物,本身就决定了候选药物结构的大半。在Hit-to-Lead阶段尽早确定核心骨架(preferred scaffold),是提高优化效率的关键策略。
487个口服候选药物中(n=445),86.3%符合Ro5(违反0或1条规则),与Brown 2018–2021数据高度一致。
Ro5参数 | 违规比例 |
|---|---|
MW > 500 | 30.6%(最主要违规来源) |
cLogP > 5 | 14.0% |
O+N > 10 | 8.1% |
OH+NH > 5 | 0.9%(极少违规) |
数据表明:当前候选药物的分布已不符合经典Ro5的"5"的助记规则——MW和cLogP的90百分位分别为586 Da和5.4,超过500/5的截止值;而OH+NH截止值5明显偏高。
采用Doak等提出的扩展分类(eRo5: MW 500–700; bRo5: MW>700或其他参数超出):
bRo5分子(Protac、大环、分子胶水等)通常依赖分子变色龙性(chameleonicity)——在非极性环境中通过分子内氢键遮蔽极性表面,实现出乎意料的口服吸收。实验性极性表面积(EPSA)是评估这一特性的重要工具。
从2013年Shokat课题组发现G12C共价抑制剂(fragment tethering,化合物11)到ARS-1620(12),再到:
KRAS系列候选药物的平均理化性质(MW 586, XLogP3 4.9, MCE-18 125)显著高于ARS-1620(MW 431, XLogP3 4.0, MCE-18 56),但亲脂性控制良好,体现整体趋势。

Danuglipron(51)来自一个仅在BETP激活的GLP-1蛋白上有微弱活性的HTS苗头(50),但MCS高达91%——优化几乎保留了全部起始骨架,核心改变是在苯并咪唑5位引入羧基模拟GLP-1底物的酸性残基。该案例是"高质量苗头→高MCS优化"的绝佳示范。

KT-474(IRAK-4降解剂)的关键策略:
最终候选药物154(MW 866)展示分子内氢键,EPSA/TPSA = 0.70,是大分子口服吸收的关键特征。

两条平行路线的对比极具教育意义:
两个候选药物的"左侧"联芳基三嗪结构高度相似,体现了专利公开带来的知识共享效应。

MCE-18在本研究中是单一最有影响力的优化指标(增加概率85%,归一化变化量最大)。与Fsp³相比,MCE-18额外强调环状脂肪特征和立体化学,更能反映现代药物化学的实践趋势。
LLE = p(activity) − XLogP3,在全数据集中平均提升1.6。LLE可理解为靶点结合相对于非特异性膜结合的选择性度量,其系统性提升是优化质量的最佳综合体现。
参数 | 说明 |
|---|---|
EPSA(实验极性表面积) | SFC色谱测量,反映溶剂暴露极性,比TPSA更准确 |
回旋半径(Rg) | 构象系综分析,比MW更适合描述Protac的"尺寸" |
最小最大分子内距离 | 预测Protac膜通透性的新指标 |
EPSA/TPSA比值 | 量化分子变色龙性 |
经典lead-like标准(1999年,Teague等):MW<350,cLogP<3,p(activity)<7。然而本研究数据显示:
这一"分子膨胀"现象反映了:新靶标(蛋白-蛋白相互作用、变构位点等)固有的结合口袋特征要求更大、更亲脂的配体,传统lead-like标准已不适用于这些体系。
作者倾向于将lead-like理解为:起始化合物应具备在分子量、复杂度和常见环系向候选药物"靠拢"的潜力,同时维持对cLogP、HBD和芳香环数的控制能力。
数据集中明确由AI/ML主导发现的候选药物案例极少,这与2018—2024年该技术尚处于工具化阶段相符。
作者的核心判断:
"AI/ML工具箱正在快速进化。虚拟筛选可能很快取代HTS,生成化学前景广阔。但候选药物的质量——包括疗效和安全性——才是最终决定药物成败的因素,而这些参数不是AI所能轻易优化的。药物化学家必须主动拥抱并引导AI的发展,而不是被动接受。"
基于整体趋势,作者建议未来筛选库应: