

文献来源: Kumar S, Pal A & Chatterjee S. Unlocking the potential of computational phenotypic drug discovery: methods, challenges, and future directions. npj Systems Biology and Applications, 2026, 12: 46. https://doi.org/10.1038/s41540-026-00676-5
表型药物发现(Phenotypic Drug Discovery, PDD)通过直接观察化合物对活体系统的效应来筛选候选药物,无需预先明确分子靶点。随着高通量生物数据的爆发式增长与机器学习技术的深度渗透,PDD 正从传统的经验性筛选演变为系统化、数据驱动的科学范式。本综述系统梳理了计算 PDD 的表型表征方法、核心算法工具、公共数据资源,深入剖析了制约其发展的主要瓶颈,并展望了若干极具潜力的前沿方向,为该领域研究者提供了结构化的方法论路线图。
现代药物研发管线高度结构化,涵盖靶点识别与验证、苗头化合物筛选、先导化合物优化、专利申报、临床前研究以及 I、II、III 期临床试验等阶段。这一过程资源消耗极为惊人——往往历经数年乃至十余年,花费数十亿美元,方能将一个候选药物推向市场。
尽管如此,药物研发的整体成功率依然偏低。核心矛盾在于:精准预测候选药物与生物靶点的相互作用,以及这种相互作用如何转化为真实的临床疗效,至今仍是生物医学科学面临的根本挑战。
靶点药物发现(Target-Based Drug Discovery, TDD)遵循"机制优先"范式:首先阐明疾病的分子机制,继而针对特定靶点设计干预策略。AlphaFold 的出现使蛋白质结构预测精度大幅提升,虚拟筛选、分子动力学模拟、QSAR 建模等计算工具也使 TDD 流程显著提速。
然而,TDD 存在几个难以回避的内在局限:
PDD 的根源可追溯至药理学的早期实践——通过经验性观察生物系统的表型变化来发现新治疗药物。20 世纪末,随着基因组学与分子生物学的兴起,TDD 一度占据主导地位。但近年来,高通量数据集的积累、成像技术的革命性进步以及人工智能的强势介入,使 PDD 重新成为制药科学的核心策略之一(见图:PDD 相关关键词发表趋势持续攀升)。
PDD 的核心优势在于其靶点无关性(target-agnostic):它直接评估化合物在细胞、组织乃至整体动物层面的生理效应,使全新作用机制的发现成为可能——这对于靶点未知的复杂疾病尤具价值。

药物 | 疾病领域 | PDD 发现路径 | 关键启示 |
|---|---|---|---|
Ivacaftor | 囊性纤维化 | 细胞表型筛选,发现时靶点未知 | CFTR 功能拯救先于机制阐明 |
Daclatasvir | 丙型肝炎 | HCV 复制子表型筛选 | 揭示了此前认为"不可成药"的 NS5A 蛋白 |
Risdiplam | 脊髓性肌萎缩症 | SMN2 剪接矫正表型筛选 | 开创 RNA 剪接靶向治疗新范式 |
Lenalidomide | 多发性骨髓瘤 | 表型筛选先于机制发现 | 其 cereblon 介导降解机制在上市后多年才被阐明 |
Thalidomide | 焦虑/多发性骨髓瘤 | 镇静表型发现,重定向用于血液肿瘤 | 靶点(cereblon)阐明远晚于临床使用 |
这些案例共同表明:PDD 具备发现"首创机制"(first-in-class mechanism)药物的独特能力,而这些机制在靶点驱动的框架下往往难以预见。

表型(Phenotype)涵盖生命系统一切可观测的特征,从分子变化、细胞形态到组织结构、生理功能乃至行为特征,是基因型与环境因素复杂交互作用的综合输出。在 PDD 框架中,表型作为真实治疗效果的代理指标,具有多个维度:
(1)细胞表型
细胞表型是 PDD 最核心的研究对象,涵盖:
细胞全景绘制(Cell Painting) 是当前最具代表性的多路复用表型检测技术。该技术利用六种荧光染料标记细胞的不同区室(核、内质网、高尔基体、线粒体、肌动蛋白/微管/细胞核),单次实验可提取超过 1500 个形态学特征,为化合物构建极为丰富的"细胞表型指纹"。
(2)生物体表型
多种模式生物被用于 PDD 的全系统表型评估,包括:
相较于细胞模型,体内模型能够整合多组织信号传导网络,更真实地反映药物的生物利用度与系统效应,生物活性化合物的临床转化潜力通常也更高。
综述系统整理了支撑计算 PDD 研究的主要公共数据集,按数据类型分为以下几类:
数据集 | 规模 | 主要用途 |
|---|---|---|
BBBC(Broad Bioimage Benchmark Collection) | 500+ 研究,690,000 张图像 | 细胞分割、表型分类、图像分析基准 |
Recursion(RxRx)系列 | 220 万张图像,83 TB | CRISPR 基因敲除与化合物扰动高通量成像 |
IDR(Image Data Resource) | 134 项研究,14,022,723 张图像,412 TB | 高质量生物成像数据公共存储库 |
JUMP-CP(Cell Painting 数据集) | 116k 化学扰动,12k 基因扰动,7500 万单细胞图像 | 大规模分子-形态关联预测 |
CytoImageNet | 890,737 张图像,894 类 | 生物图像迁移学习预训练 |


转录组与基因扰动数据集
数据集 | 规模 | 主要用途 |
|---|---|---|
LINCS L1000 | 1.678 M 化学扰动与 CRISPR KO 特征向量 | 药物转录组学特征,MoA 分析 |
CMap(Connectivity Map) | 1.5 M 全基因组表达谱,~5000 小分子 | 药物-基因-疾病功能连接发现 |
数据集 | 规模 | 主要用途 |
|---|---|---|
TCGA | 20,000 例原发癌症,33 种癌型,2.5 PB | 多组学癌症基因组研究 |
CCLE/DepMap | ~1000 癌细胞系 | 遗传依赖性、靶点验证、药物响应预测 |
Human Protein Atlas | 27,800 种抗体,覆盖 87% 人类蛋白编码基因 | 蛋白质组学图谱,细胞分割 |
数据集 | 规模 | 主要用途 |
|---|---|---|
1008 Tales 数据集 | 1008 个 FDA 批准药物,218 种 MoA | MoA 分类与聚类基准 |
LCIdb | 2060 蛋白,271,180 分子,396,798 正例 DTI | 大规模药物-靶点相互作用预测 |
将化学结构与生物信息转化为机器学习可处理的数值表示(嵌入,Embedding),是计算 PDD 的基础性工作。综述归纳了四类主要嵌入策略:

核心思路:将药物及其相互关系表示为图(Graph),其中节点为药物/基因/蛋白/疾病,边为各类生物学关系(DDI、DTI、药物-疾病关联、化学相似性网络等)。
代表方法:
适用场景:药物-靶点相互作用(DTI)预测、药物重定向、副作用预测。
局限性:高度依赖已有领域知识,存在已知药物与靶点被过度代表、新型化合物被忽视的系统性偏差。

化学嵌入将分子结构编码为数值向量,包括:
适用于 QSAR 建模、相似性搜索和骨架跃迁(Scaffold Hopping),具有通用性强、可跨化合物库应用的优点。但其局限在于:纯化学结构不能反映生物系统中的分子间相互作用,结构相似性不等同于功能相似性。
文本嵌入基于自然语言处理,将科学文献转化为向量表示:
研究表明,将文献文本信息与化学结构嵌入结合,可显著提升药物重定向的预测性能。局限性主要包括:词共现不等于生物学相关性,计算资源需求大,以及难以捕获分子三维空间信息。
将药物映射至双曲空间(Hyperbolic Space)中的树状几何结构,使功能或结构相似的药物在空间上相近。这一方法能够更精确地建模药物"分类学"——包括共享官能团、治疗靶点与代谢通路的层级关系。主要应用包括新适应症预测与不良反应预测。
该方法尚处于发展阶段,底层数学相对复杂,标准化最佳实践仍有待建立。
核心思路:利用深度学习模型从高维基因表达数据中提取降维的数值表示,解决传统组学分析中数据稀疏性、技术噪声、高维数据解读困难等问题。
代表工作:
局限性:高质量组学数据对多数药物而言仍不可及;批次效应(Batch Effect)影响重复性;计算资源与专业技术要求极高;存在过拟合风险。
这类模型以结构化特征(分子描述符、理化性质、高通量筛选结果、基因表达谱)为输入,通过监督学习建立特征与生物效应之间的映射关系。

代表算法及应用:
优势:计算效率高,可解释性强。局限:高度依赖已有注释,对发现全新作用机制的化合物效果有限。
深度学习从大规模数据中自动学习生物学意义的特征表示,在毒性预测、药物响应预测、分子生成等任务上表现出色。
代表模型与应用:
模型 | 核心方法 | 主要应用 |
|---|---|---|
DrVAEN | 变分自编码器(VAE)+ 弹性网络,嵌入治疗前转录组 | 患者个性化药物响应预测与生存结局预测 |
GCAN + LSTM | 图卷积自编码器 + 长短时记忆网络 | DDI 预测,包括临床相关相互作用 |
MolDiffusion | 扩散模型(Diffusion Model) | 以目标表型特征为条件生成新分子 |
scGen | 单细胞生成模型 | 预测细胞对扰动的响应,识别可逆转疾病状态的化合物 |
cGAN-Cell Painting | 条件生成对抗网络 + 形态学图像 | 生成与目标视觉细胞效应匹配的分子 |
PAE/PertVAE | 扰动自编码器 | 提取细胞扰动核心特征,生成或对抗特定生物效应 |
网络基模型将生物学编码为关系网络,建模基因、蛋白质、药物、疾病之间的动态相互作用,其核心假设是:生物功能与药物响应涌现于分子网络的整体互作,而非单个分子的孤立行为。
代表工具:
这一前沿方向利用单细胞测序数据,在单细胞分辨率下预测药物效应:
面对深度学习模型的"黑箱"问题,XAI 方法为 PDD 决策提供透明化依据:
XAI 在 PDD 中的典型应用包括:
战略价值:XAI 不仅提升模型可信度,更能辅助临床试验设计与患者分层,为监管审批提供可追溯的科学依据。
综述将完整的计算 PDD 流程概括为以下三个阶段(对应论文图 3):
┌─────────────────────────────────────────────────────────┐
│ 阶段 A:数据采集与嵌入表示 │
│ │
│ 输入源:化学结构数据库(ChEMBL、DrugBank、PubChem) │
│ 生物学测定数据(细胞成像、基因表达、疾病网络) │
│ │
│ 特征提取:SMILES → 分子指纹 / One-hot 编码 / 词嵌入 │
│ 形态学图像 → 形态学特征谱(Cell Painting) │
│ 基因表达 → L1000 特征谱 │
│ │
│ 嵌入模型:编码器-解码器架构 → 潜空间向量表示 │
└───────────────────┬─────────────────────────────────────┘
│
┌───────────────────▼─────────────────────────────────────┐
│ 阶段 B:降维可视化与相似性评估 │
│ │
│ 向量空间中生物学/化学相似性聚类 │
│ (t-SNE、UMAP、PCA 等降维可视化) │
└───────────────────┬─────────────────────────────────────┘
│
┌───────────────────▼─────────────────────────────────────┐
│ 阶段 C:模型训练、验证与预测 │
│ │
│ 算法:CNN、随机森林、HDBSCAN、深度聚类、岭分类器等 │
│ 验证:交叉验证(Cross-Validation) │
│ 预测输出:作用机制(MoA)、毒性、疗效 │
└─────────────────────────────────────────────────────────┘表型测定产生的数据种类繁多——从转录组学、蛋白质组学到形态学和功能性表型——但这些数据往往高度分散,跨平台和跨研究的整合面临严重障碍。数据标准化的缺失显著降低了 ML 模型的训练质量,导致预测性能与泛化能力不足。
典型失败案例:
症结分析:现有公共数据集缺乏疾病模型特异性的丰富上下文信息,制约了稳健计算预测模型的开发。
不同于靶点药物筛选中定义明确的单一终点(如酶抑制率),表型筛选依赖多参数读出(细胞形态、行为、活力等),这使得自动化、解读和重复性均面临巨大挑战。
表型命中化合物需在从细胞测定到动物模型的不断复杂化的生物系统中逐级验证,而体内疾病模型在向人体转化时常遭遇方法论差异与物种特异性壁垒。
典型教训:
案例 | 失败原因 | 教训 |
|---|---|---|
DMXAA(黄酮类抗癌化合物) | 选择性激活鼠源 STING,而非人源 STING | 物种特异性机制差异的隐患 |
BIA 10-2474(FAAH 抑制剂) | 早期表型研究未进行严格的靶点解卷积,实际抑制多个脱靶脑丝氨酸水解酶,I 期临床致一人死亡 | 跳过严格靶点去卷积的灾难性后果 |
Thalidomide(沙利度胺) | 以镇静效果获批,数十年后才识别出 cereblon(CRBN)靶点,为时已晚地揭露了致畸机制 | 早期机制验证的关键重要性 |
NXY-059(神经保护候选药) | 啮齿类卒中模型效果显著,但未建立清晰 MoA,模型生物学相关性不足,大型临床试验完全失败 | 依赖非预测性表型模型的根本风险 |
识别有效化合物只是 PDD 的第一步;阐明其作用机制(Mechanism of Action, MoA)才是真正的挑战。与 TDD 中机制预先确定不同,表型命中化合物往往需要生物学"侦探工作"才能解码其靶点。这一过程劳动密集、耗时漫长,且成功率有限。
挑战因多药理学(Polypharmacology,即化合物同时作用于多个靶点)的普遍存在而进一步加剧——单一靶点归因本身可能就是一种过度简化。
然而,机制模糊性也孕育了**药物重定向(Drug Repurposing)**的机遇:
药物 | 原始适应症 | 重定向新适应症 | 机制转变 |
|---|---|---|---|
Sildenafil | 心绞痛与高血压 | 勃起功能障碍 → 肺动脉高压(PAH) | PDE5 抑制的多组织效应 |
Imatinib | 慢性粒细胞白血病(CML,BCR-ABL 抑制) | 胃肠道间质瘤(GIST,KIT/CD117 抑制) | 激酶选择性的新发现 |
Thalidomide | 镇静 | 多发性骨髓瘤 | 免疫调节与 CRBN 介导降解 |
Minoxidil | 抗高血压 | 局部脱发治疗 | 血管扩张的局部转化应用 |
诱导多能干细胞(iPSC)可以从患者皮肤或血液细胞重编程为任意细胞类型,提供个性化疾病模型平台。与 3D 类器官培养结合后,这些细胞能自组织形成微型组织结构,其生理行为远比传统二维培养更接近真实人体器官,为个性化表型筛选开辟新途径。
生成式 AI 模型(如 MolDiffusion)能够以目标表型特征为条件,在化学空间中生成满足特定要求的新分子,显著扩展可探索的化学空间。基础模型(Foundation Models)具备从少量数据中学习的能力,对于数据稀缺的罕见病领域尤具价值。生成式 AI 还可模拟基因表达模式,以匹配个体层面的表型特征,推动精准医学落地。
单细胞测序技术的成熟使在单细胞分辨率下解析药物效应成为现实。DrugReSC、Drug2Cell、scTherapy 等工具已能精准定位药物影响最显著的细胞亚群,并识别高效低毒的协同药物组合,为系统性个体化治疗奠定基础。
高分辨率成像技术与先进细胞图像分析算法的结合,使研究者能够将此前"观察有效但机制未知"的表型命中转化为可理解的生物学过程。化学探针(Chemical Probe)与基于化学生物学的靶点解卷积方法(如 DARTS、化学蛋白质组学、活性蛋白质谱)的系统整合,将是未来破解 MoA 谜题的关键技术路径。
AI 与多组学技术(转录组学、蛋白质组学、磷酸化蛋白质组学等)的深度融合,正在增强细胞疾病表型识别的系统性与普适性。多模态框架——同时整合化学结构、基因组学影响、蛋白质互作网络——是提升预测可靠性与广度的必然路径。
研究问题界定
│
▼
表型选择(细胞表型 / 生物体表型)
│
├── 细胞成像(Cell Painting 等)
├── 基因表达谱(L1000 / RNA-seq)
└── 蛋白质组 / 磷酸化蛋白质组
│
▼
数据预处理与特征提取
│
├── 形态学特征(CellProfiler 等)
└── 分子嵌入(SMILES / 图神经网络等)
│
▼
嵌入建模与相似性评估
│
├── 网络嵌入
├── 化学 / 文本嵌入
├── 层级嵌入
└── 组学嵌入
│
▼
预测模型训练与验证
│
├── MoA 预测
├── 毒性预测
├── 药物-靶点亲和力
└── 药物重定向
│
▼
可解释性分析(SHAP / LIME)
│
▼
实验验证(细胞模型 → 动物模型 → 临床转化)
│
▼
靶点解卷积(化学蛋白质组学 / 计算方法)这篇综述的最大价值在于提供了一个统一的方法论框架,将表型表征、计算嵌入、预测建模与验证策略整合为一条完整的 PDD 研究路线图。几点深层启示值得关注: