

原文信息 Espinoza-Castañeda J.I., de la Fuente-Nunez C., Medina-Franco J.L. Open-source chemoinformatics platforms for multi-target structure-activity relationships Cell Reports Physical Science, 7, 103276, May 20, 2026 DOI: 10.1016/j.xcrp.2026.103276 代码仓库:github.com/IsrC11/SMARTs-Toolbox
结构-活性关系(Structure-Activity Relationships, SAR)是药物化学与先导化合物优化的核心方法论,其本质是通过统计或模型方法,揭示分子结构特征(描述符、骨架、片段)与生物/理化活性之间的定量关联。然而,传统 SAR 的根本假设是"一药一靶"——即一个分子只针对一个治疗靶标进行设计与优化。
这一还原论范式在面对复杂多因素疾病时正面临越来越严峻的挑战:
与此同时,化学、生化及生物物理数据的爆炸式增长(大规模表型筛选、高通量测序、蛋白质组学)使整合多来源信息变得既必要又可行。
多药理学(Polypharmacology)是指单一分子对多个蛋白靶标产生有意义相互作用的能力,这既可能是设计意图,也可能源于意外的脱靶效应。区分"有益的多药理学"与"有害的滥靶性(promiscuity)"是当前领域的核心挑战之一。
在此背景下,结构-多活性关系(Structure-Multiple Activity Relationships, SMARTs) 作为 SAR 的系统性扩展应运而生。SMARTs 不再局限于单靶点活性数据,而是通过整合多靶点、多组学、多通路数据,同时优化化合物在若干治疗维度上的活性谱。
已获批的多靶点药物为这一策略提供了有力的临床证明:
药物 | 适应症 | 已知多靶点机制 |
|---|---|---|
索拉非尼(Sorafenib) | 肝癌/肾癌 | RAF激酶、VEGFR、PDGFR等多激酶抑制 |
多奈哌齐(Donepezil) | 阿尔茨海默病 | AChE抑制 + 5-HT受体调节 |
伊马替尼(Imatinib) | CML | BCR-ABL、c-Kit、PDGFR多靶点抑制 |
然而值得警惕的是,目前有意设计的多靶点批准药物仅占全部上市药物的约 15%,反映出从计算设计到临床转化之间依然存在巨大鸿沟。
SAR(结构-活性关系)
├── 输入:一个化合物集合 × 一个生物活性端点
├── 输出:结构特征 → 单一活性的定量模型
└── 局限:忽略靶标间的相关性与化合物的多维活性谱
SMARTs(结构-多活性关系)
├── 输入:一个化合物集合 × 多个靶标/通路/性质端点
├── 输出:结构特征 → 多维活性谱的整合模型
└── 优势:支持多参数同步优化,识别跨靶标的共性结构片段SMARTs 分析的一个重要应用场景是药物重定向(Drug Repurposing):通过识别不同治疗靶标之间共享的结构基序(motif),预测已批准化合物在新适应症中的潜力,显著压缩早期发现成本。
作者对 PubChem、GitHub 和 Google Scholar(2020–2025年)进行系统检索,关键词涵盖:
chemoinformatics + open accessstructure-activity relationships + application notepolypharmacology + polypharmacology tools本综述将15个平台(10个开源 + 5个商业)划分为四大功能类别,并以维恩图呈现多功能交叠关系:
┌─────────────────────────────────────┐
│ 数据可视化(Data Viz) │
│ ChemGPS · MAYA · webDrugCS │
│ DataWarrior · SARvision │
│ ┌──────────────┐ │
│ │ Flare │ │
└──────────┤ (Viz+Quant) ├────────────┘
│ Optibrium │
┌───────────────┤ (Viz+Quant ├────────────────┐
│ 定量分析 │ +ML) │ 相似度预测 │
│ SARANEA └──────────────┘ 3DSTarPred │
│ DTINet ↑ OpenEye │
│ ┌─────────────┐ │
└────────────┤ Chemprop ├───────────────────┘
│ (Sim+ML) │
│ Polygon │
│ OpenChem │
│ DeepMol │
│ DeepAutoQ │
└─────────────┘
机器学习(ML)
图1. 化学信息学工具。依据工具在药物发现中的多重作用,以维恩图形式进行组织与展示,包括数据可视化(粉色)、基于相似性的预测(橙色)、定量分析(蓝色)以及机器学习(紫色)。各工具被放置于其对应的功能类别中,重叠区域则表示其具备多功能特性

数据可视化在 SMARTs 分析中承担化学空间导航的核心角色,通过将高维描述符映射到可视化二维空间,揭示化合物在多活性维度上的聚类、离群与活性悬崖(Activity Cliff)模式。
相似度预测的核心任务是基于化合物的结构特征,预测其潜在的靶标相互作用谱——这是靶标去卷积(Target Deconvolution)和老药新用研究的基础方法。
工具 | 预测方法 | 准确率 |
|---|---|---|
3DSTarPred | 3D构象相似性 | 76.3% |
SwissTargetPrediction | 2D/3D相似性 | 72.9% |
NetInfer | 网络推断 | — |
SEA | 化学相似性集成 | — |
FastTargetPred | 快速靶标预测 | — |
定量分析框架的本质是建立分子描述符与活性/性质之间的数学映射,QSAR(Quantitative Structure-Activity Relationship)是其经典形式。
QSAR 到 multi-QSAR 的演进
传统 QSAR
→ 单一活性端点
→ 线性/非线性描述符-活性映射
→ 局限:每个靶标需独立建模,无法捕获靶标间相关性
多维 QSAR(multi-QSAR / Deep QSAR)
→ 多活性端点同步建模
→ 整合 AI/深度学习方法
→ 支持药效动力学 + ADMET 参数联合优化
→ 能够量化靶标选择性与多靶点活性权衡机器学习已成为现代药物发现流程中不可或缺的基础设施,其在 SMARTs 分析中的核心优势在于:从高维化学/生物数据中自动提取非线性关联,实现多分子特征的同步优化。
综述同时评估了5个商业平台,对于拥有预算的学术课题组或工业界团队,其在可用性、技术支持与更新频率上具有优势:
软件 | 主要功能 | 多靶点特色 | 可及性 |
|---|---|---|---|
Optibrium (StarDrop/BioPharmics) | 数据分析、SAR可视化、ADMET-QSAR、多参数优化 | 自定义交互图形;3D信息整合;MPO打分 | 商业授权(提供学术/非营利许可) |
DeepAutoQSAR | QSAR建模(Schrödinger生态) | 自动化机器学习模型构建 | 商业订阅 |
SARvision | SAR信息可视化与组织 | 大数据集交互分析 | 商业授权 |
OpenEye Scientific | 相似度搜索、虚拟筛选 | 基于形状(ROCS)与药效团的3D搜索 | 商业授权(提供学术许可) |
Flare | 数据可视化、3D相似度、配体药物设计 | FEP+/RBFE准确性;多靶点结合模式分析 | 商业授权 |

开源 vs. 商业工具核心权衡
开源工具 商业工具
+ 零成本获取 + 技术支持与培训
+ 透明可审计 + 持续更新维护
+ 科研定制灵活 + 优化用户体验
+ 社区共建 + 更广功能覆盖
- 文档质量参差不齐 - 高昂许可费用
- 长期维护依赖科研经费 - 源代码不透明
- 非专业用户上手门槛高 - 定制化能力受限综述提供了一份依据用户编程能力分层的工具推荐矩阵,这是本文最具实践价值的贡献之一:
研究任务 | 无编程基础 | 有限编程能力 | 编程专家 |
|---|---|---|---|
基于理化性质的化学空间可视化 | WebDrugCS, Optibrium, DataWarrior | MAYA | — |
基于结构特征的化学空间可视化 | Optibrium, DataWarrior | MAYA | — |
活性悬崖分析 | SARANEA | MAYA | — |
QSAR建模 | DataWarrior(描述符计算), SARANEA(活性悬崖), DeepAutoQSAR | — | Chemprop, DeepMol |
探索性分析与数据集表征 | DataWarrior, Optibrium, SARvision, Flare, OpenEye | MAYA, OpenChem | — |
药物重定向 | 3DSTarPred | MAYA, OpenChem | DTINet, DeepMol |
结构多样性分析 | DataWarrior, Optibrium, SARvision, Flare | MAYA | — |
预测/分类模型构建 | DeepAutoQSAR | — | Chemprop, DeepMol |
从头分子设计(De novo) | — | — | Polygon |

短肽(<50个氨基酸)正在成为多靶点药物开发的重要支架类别。与传统小分子相比,经合理设计的短肽具有:
APEXDUO 是一个典型案例——这是一个专为预测具有多模态性质肽段而设计的 AI 驱动模型,代表了将肽设计整合进化学信息学工作流的新兴趋势。
预测目标为两性性指数(Amphiphilicity Index)——抗菌肽穿透细菌膜的关键物理化学参数,反映肽段疏水/亲水区域的空间分布。
网络架构:
输入层(SMILES编码)
↓
全连接层 1: 1024个神经元 + Dropout(0.5)
↓
全连接层 2: 512个神经元 + Dropout(0.5)
↓
全连接层 3: 128个神经元 + Dropout(0.5)
↓
输出层: 1个神经元(两性性指数回归值)训练配置:
性能结果:
指标 | 值 |
|---|---|
外部验证 R² | 0.68 |
外部测试集平均 RMSD | 0.22(35肽 vs. DBAASP服务器预测值) |
误差分析:高 RMSD 主要集中于训练集中结构基序欠代表的肽段,提示线性 SMILES 表示无法充分捕获三维构象特征——这是肽段相关三维描述符整合的重要方向。
分析对象:2,570个化合物(包含上述抗菌肽数据集)
双描述符体系:
描述符类型 | 内容 | 降维方法 | 保留信息 |
|---|---|---|---|
理化(药物样)描述符 | 分子量、可旋转键数、氢键供体/受体 | PCA + t-SNE | 全局理化相似性 |
MAP4指纹(半径2, 2048 bit) | 基于最小哈希+SMILES的拓扑指纹 | PCA + t-SNE | 局部结构特征 |
关键发现:

通过将 OpenChem 预测的两性性指数与 MAYA 生成的化学空间分布相结合:
挑战 | 具体表现 | 潜在影响 |
|---|---|---|
数据集不平衡 | 热门靶标数据量远超罕见靶标 | 预测模型对欠代表靶标产生系统性偏差 |
阴性/非活性数据稀缺 | 公共数据库以活性数据为主 | 模型边界不清,假阳性率偏高 |
实验数据标准化不足 | 不同来源的检测格式、活性阈值、标注规范差异显著 | 相似度预测可靠性降低 |
多靶点基准数据集缺失 | 无社区公认的多靶点标准评估集 | 方法间客观比较困难,模型鲁棒性难以评估 |
综述提出了以下高优先级研究方向:
值得注意的是,文章坦承 in silico 预测与临床结果之间的弱相关性问题——这恰恰是该领域长期存在的"可重复性危机"的延伸。SMARTs 工具箱的真正价值,在于为实验验证提供有据可查的优先级假设,而非取代湿实验判断。随着集成多组学数据的下一代工具涌现,这一转化鸿沟有望逐步缩小。