

文献来源:Wassermann A M, Wawer M, Bajorath J. Activity Landscape Representations for Structure-Activity Relationship Analysis. Journal of Medicinal Chemistry, 2010, 53(23): 8209–8223. DOI:10.1021/jm100933w 作者单位:德国波恩莱茵弗里德里希-威廉大学
在药物化学研究中,构效关系(Structure-Activity Relationship,SAR)分析是核心主题之一。随着化合物数据集规模不断扩大,仅凭化学家的直觉和经验已难以全面把握结构与活性之间的复杂关联。计算方法的引入虽然提升了分析效率,但作者明确指出:计算方法并不等于客观——任何计算模型都内含假设和近似,其适用范围往往有限,结果也难以直接评估。
在这一背景下,活性景观(Activity Landscape) 的概念应运而生。它将化合物的结构相似性与活性差异整合于同一框架之中,为数据驱动、描述性的大规模 SAR 分析提供了强有力的工具。本文作者系统综述了活性景观的理论基础、数值分析方法和多种图形表征模式,并深入探讨了其在药物化学中的实际应用价值。
活性景观可以被广义定义为:
任何整合了化合物结构相似性分析与活性差异分析的表征形式,且所研究化合物共享同一生物活性靶点。
在实现层面,活性景观将化合物在化学参考空间中的位置(由结构相似性决定)与其活性值相结合,形成一个"活性超曲面"。结构相似的化合物在空间中彼此靠近,结构差异大的化合物彼此远离,而活性差异则由超曲面的起伏来反映。
活性景观的生成依赖于化学参考空间。与用于活性预测的空间不同,用于 SAR 分析的参考空间优先强调结构相似性而非活性相关性。常用的分子表征手段包括:
作者特别强调了相似性悖论(Similarity Caveat):分子表征方式的选择对景观拓扑的影响,往往远大于活性测量误差的影响。不同参考空间可能导致截然不同的相似性关系,进而使活性悬崖出现或消失。因此,在多个参考空间中一致出现的活性悬崖(称为"共识活性悬崖")被认为具有更高的可靠性。
基于活性景观的拓扑特征,可将 SAR 特征分为三类(见图2):
SAR 类型 | 景观特征 | 化学含义 | 计算模型适用性 |
|---|---|---|---|
SAR 连续性 | 平缓起伏的丘陵地形 | 结构渐变伴随活性渐变 | 高,适合 QSAR、虚拟筛选 |
SAR 不连续性 | 陡峭的悬崖地形 | 微小结构变化引发活性突变 | 低,挑战 QSAR 模型 |
SAR 异质性 | 混合地形 | 连续与不连续区域共存 | 中等,需分区处理 |

研究表明,现实化合物数据集中的全局 SAR 绝大多数呈异质性,即图2c所示的"可变活性景观",这与连续和不连续 SAR 成分在不同化合物子集中的共存密切相关。
这是本文一个极具启发性的理论切入点。作者从信息论角度重新审视 SAR 信息内容:
这一悖论揭示了一个重要认识:活性悬崖区域能暴露对活性十分重要的取代位点,但未必能提供如何进一步优化化合物的趋势性指导。 因此,SAR 分析既不能只盯着活性悬崖,也不能忽视连续区域中蕴藏的规律性信息。
SAS Map 是最早提出的活性景观二维表征方式,由 Shanmugasundaram 和 Maggiora 于2001年报道。其核心思想是对数据集中所有化合物对进行系统性两两比较:
SAS Map 可自然划分为四个象限,分别对应不同 SAR 特征:
象限位置 | 结构相似性 | 活性相似性 | SAR 含义 |
|---|---|---|---|
左上 | 低 | 高 | 骨架跳跃区(Scaffold Hopping) |
右上 | 高 | 高 | 类似物系列,活性趋同 |
左下 | 低 | 低 | 低信息量区域 |
右下 | 高 | 低 | 活性悬崖区(Activity Cliffs) |

SARI 由 Peltason 和 Bajorath 于2007年提出,是对 SAS Map 的数值化抽象,由两个分量构成:
(1)连续性评分(Continuity Score)
其中权重定义为:
此评分强调高活性且活性差异小的结构多样化化合物对,反映景观的平缓区域。
(2)不连续性评分(Discontinuity Score)
此评分仅考虑相似度超过阈值 且活性差异超过一个数量级的化合物对,精确捕捉活性悬崖。
两个原始评分经 Z-score 标准化后映射至 [0,1] 区间,最终合并为:
SARI 对全局 SAR 的分类标准:高分 → 连续性 SAR;低分 → 不连续性 SAR;中间值(约0.5)→ 异质性 SAR。
此外,SARI 还可在单化合物层面计算局部不连续性评分,识别对局部 SAR 突变贡献最大的化合物。
SALI 由 Guha 和 van Drie 提出,是针对活性悬崖的简洁量化工具:
SALI 为分母趋近于零时(即两分子几乎全同但活性差异极大)取值趋于无穷,能敏锐捕捉最显著的活性悬崖。
与 SARI 不连续性评分相比,SALI 的特点在于:
Guha 后来还将 SALI 扩展至考虑剂量-响应曲线的 Hill 方程参数,以替代单点活性值,用于更精细地描述中等程度的活性悬崖。
在 SALI 图中,节点代表化合物,若两化合物的 SALI 值超过预设阈值(如全部 SALI 值的前 50%、60%、70%……),则连接一条有向边(方向指向活性更高的化合物)。
随着阈值提高,保留的边逐渐减少,最终只有最显著的活性悬崖化合物对被保留(图3中红色边)。这一分析可直接识别化合物优化路径,是药物化学应用的有力工具。

SALI 图还可用于评估不同 SAR 模型对活性悬崖的覆盖能力:通过绘制"SALI 曲线"(正确预测的有向边比例 vs. SALI 阈值),可筛选出最适合特定数据集的计算模型。
NSG 是迄今功能最为全面的活性景观表征方式之一,由 Wawer 等人提出(图5):

NSG 的独特优势在于同时揭示全局与局部 SAR 特征。例如:
SAR 通路(SAR Pathways) 是 NSG 的延伸应用:基于预定义的 SAR 模型,系统计算和排序从连续区域延伸至活性悬崖的化合物路径,为跨越连续/不连续 SAR 区域提供可解释的化学关联(图5d)。
NSG 还可扩展至多靶点选择性分析:将活性值替换为对两个靶点的对数活性差(选择性),生成"选择性-NSG",识别"选择性悬崖",揭示结构决定选择性的取代基模式(图6)。

SPT 是以单个化合物为中心的局部景观视图(图7):

SPT 的关键在于参考化合物的选择:遍历数据集中所有化合物作为根节点,生成全部 SPT 后按预设 SAR 信息内容排序,确保不遗漏任何局部 SAR 信息。优质 SPT 具有宽广的覆盖范围和规律的活性分布模式,直接为衍生物合成提供方向(图7b)。
三维活性景观将化合物的二维化学参考空间投影(通过多维尺度分析,MDS)与 z 轴活性值相结合,利用插值函数生成连续活性曲面(图8):

三维景观的重要应用之一是诊断性比较:同一数据集在不同分子表征下产生的三维景观可能大相径庭(图8c),从而帮助研究者评估哪种描述符空间更适合特定的建模目标。
CAG 专为小型类似物系列设计,填补了其他景观方法在精细取代基分析上的空白(图9):

CAG 已被拓展至多靶点 SAR 分析(图9b):对同一系列化合物针对 factor Xa、凝血酶、尿激酶和胰蛋白酶分别生成 CAG,可直观比较各靶点的 SAR 热点差异,为选择性优化提供精确指导。
系统性活性景观分析表明,几乎所有活性化合物数据集(包括高通量筛选数据集)都含有中等到大幅度的活性悬崖。这一发现具有重要意义:活性悬崖并非例外,而是药物化学数据集的普遍特征。
基于匹配分子对(Matched Molecular Pairs,MMP)分析,研究者系统鉴定了约 200 种在不同化合物类别和生物靶点中普遍诱导活性悬崖的 R 基替换模式(图4a),典型类别包括:

除取代基外,分子骨架本身也可能是活性悬崖的来源。研究鉴定了超过 100 种在多个靶点上均能形成显著活性悬崖的分子骨架(图4b),这些骨架的普遍悬崖倾向提示:骨架选择本身就应纳入化合物库设计和优先筛选的考量之中。
本文明确区分了活性景观分析与预测性 SAR 方法的定位:景观分析是描述性的,不是预测性的。其核心价值体现在:
作者坦诚地指出了活性景观分析的若干局限:
对于未来方向,作者预期:
本文是活性景观领域最具代表性的综述之一,系统梳理了从 SAS Map 到三维景观、从全局到局部、从单靶点到多靶点的完整方法体系。其核心贡献在于:
将原本定性的药物化学 SAR 直觉,转化为可量化、可可视化、可系统比较的计算框架,同时保留了化学可解释性这一不可或缺的核心。
对于从事早期药物发现、命中-先导物转化和先导物优化的研究者而言,掌握活性景观分析方法,意味着拥有了一套能够在复杂数据中高效定位"地形特征"的导航系统。