

文献来源:Wang X, Wang C, Ji B, et al. Multimodal pre-training models of molecular representation for drug discovery. National Science Review, 2026, 13: nwaf495. DOI:10.1093/nsr/nwaf495 发表机构:西北工业大学 · 湖南大学 · 香港大学 · 中国科学院上海药物研究所
新药研发是人类健康事业中成本最高、周期最长、风险最大的科学工程之一。平均而言,一款新药从立项到获批上市需要投入约 26 亿美元、历经 10~15 年,而在初筛阶段进入研究的 5,000~10,000 个化合物中,最终能够完成临床试验并获得监管批准的仅有 1 个。更为严峻的是,每十亿美元资金所能带来的新药获批数量每九年减半——这一现象被学界称为"逆摩尔定律"(Eroom's Law)。

面对这一困境,深度学习驱动的计算方法为药物研发带来了新的可能。AlphaFold 的成功证明了 AI 在蛋白质结构预测领域的革命性潜力。然而,深度学习的性能严重依赖大规模标注数据,而真实药物发现场景中有标注的分子数据极为稀缺,这构成了深度学习大规模应用的核心瓶颈。
自监督预训练技术的兴起为破解这一困境提供了关键思路:通过在海量未标注数据上自动构造监督信号,模型得以学习分子结构背后的潜在规律,显著降低了对标注数据的依赖。这篇综述正是在这一背景下,系统梳理了当前最前沿的多模态预训练分子表示学习研究进展。
多模态预训练模型由四个核心要素构成:
要素 | 内容 |
|---|---|
多模态分子数据 | 1D 序列、2D 图、3D 几何结构、分子描述符、交互网络、文本描述 |
神经网络编码器 | DNN、CNN、RNN、Transformer、GNN 及其变体与融合体 |
自监督预训练任务 | 对比学习、匹配预测、掩码预测、自回归预测 |
训练策略 | 联合训练、无监督表示学习、预训练-微调两阶段训练 |
其核心逻辑是:让神经网络通过自动生成的伪标签(pseudo-labels)从多模态未标注数据中学习统一的分子表示,再迁移至下游药物发现任务。
单模态预训练仅从一种表示形式(如 SMILES 序列)学习,而多模态预训练的核心优势在于:

以苯甲酸(Benzoic Acid)为例,一个分子可以从以下六个维度被编码:
最常见的分子序列表示是 SMILES(Simplified Molecular-Input Line-Entry System),例如苯甲酸表示为 C1=CC=C(C=C1)C(=O)O。其优势是存储紧凑、便于与文本模型直接结合;劣势是无法显式编码原子间的空间关系。此外,SELFIES(Self-Referencing Embedded Strings)作为更具鲁棒性的分子字符串表示,在生成任务中展现出优越性。

将原子视为节点、化学键视为边,构造分子图。2D 图能够显式捕捉原子间的连接拓扑,是图神经网络(GNN)的标准输入格式。与 1D 序列相比,2D 图保留了更多结构语义信息。
在 2D 图基础上,进一步引入原子的三维空间坐标,描述分子的真实立体构型。对于药物-靶点结合预测而言,3D 结构至关重要——分子的构象直接决定其与受体的结合能力(锁钥原理)。
分子描述符是反映分子物理化学性质的结构化数值向量,分子指纹则是基于子结构特征的二值化向量(如 Morgan 指纹)。两者适合作为 DNN 的直接输入,且计算高效。
以生物实体(基因、蛋白质、药物、疾病等)为节点、已知的相互作用关系为边,构建异质网络(Heterogeneous Network)。与其他模态相比,交互网络能够编码"多药多靶多疾病"的系统生物学知识,对多组学融合和药物重定向任务尤具价值。
以自然语言形式描述分子的名称、化学式、结构特征、生物活性及功能特征。文本描述是最直观、最易被非化学背景读者理解的模态,也是大语言模型(LLM)与药物发现领域衔接的核心桥梁。不同来源(DrugBank、PubChem、ChEMBL 等)对同一分子的描述风格存在差异,标准化不足是当前挑战之一。
网络类型 | 适用模态 | 核心模块 | 主要优势 | 主要局限 |
|---|---|---|---|---|
DNN | 结构化向量(描述符/指纹) | 全连接层 + 非线性激活 | 架构简单,计算高效 | 忽略元素间依赖关系 |
CNN | 网格数据(分子图像)、1D 序列 | 卷积 + 池化操作 | 捕捉局部特征,参数共享 | 难以处理全局依赖 |
RNN | 时序序列(SMILES、文本) | GRU/LSTM 循环单元 | 捕捉序列时序依赖 | 长序列梯度消失/爆炸问题 |
Transformer | 长序列数据 | 多头自注意力 + 位置编码 | 捕捉长程全局依赖 | 计算复杂度随序列长度平方增长 |
GNN | 图结构数据(2D/3D 分子图、交互网络) | 谱图卷积 / 消息传递机制 | 捕捉图拓扑结构 | 深层 GNN 存在过度平滑(over-smoothing)问题 |

Transformer 采用编码器-解码器(Encoder-Decoder)框架:
Transformer 的两个重要变体在药物发现中尤受关注:

文章指出,当前最主流的编码器设计模式是同时使用 Transformer 处理 1D SMILES 序列和 GNN 处理 2D/3D 分子图,两者结合能够覆盖分子从序列到拓扑结构的不同尺度特征。这种"序列+图"双塔编码架构已在大量工作中得到验证,是当前多模态预训练的主流框架。
预训练任务 | 优化目标 | 核心优势 | 主要局限 |
|---|---|---|---|
对比学习 | 模态对齐 | 捕捉跨模态一致性;可利用大批量负样本避免模型崩溃 | 依赖大量负样本;忽略模态细粒度对齐与各模态独特性 |
匹配预测 | 一致性分类 | 捕捉跨模态关联;通过注意力机制建模细粒度交互 | 依赖负样本质量;正负对识别较简单,限制学习难度 |
掩码预测 | 上下文重建 | 深度理解模态内部精细结构与跨模态细粒度交互 | 忽略跨模态全局一致性 |
自回归预测 | 条件生成 | 增强模型的生成能力 | 仅利用单向信息;削弱表示与理解能力;较少生成任务需求 |

两者都以"正样本对"(同一分子的两种模态)和"负样本对"(不同分子的两种模态)为训练信号,但存在本质区别:
部分工作(如 ISMol、MolCA)将两者结合以实现互补,取得了更好的效果。
掩码预测最初由 BERT 提出用于自然语言处理,其核心思想是遮盖输入的部分信息后要求模型恢复。多模态掩码预测将这一思想扩展至跨模态场景:将不同模态的输入统一转化为序列,随机遮盖部分 token,要求模型利用其他模态的信息来恢复被遮盖内容。这一机制能够强迫模型学习模态间的深层语义对应关系。
由于各预训练任务捕捉分子特征的侧重点不同,越来越多的研究通过加权求和多个预训练任务损失来进行联合训练,以期获得更全面、更通用的分子表示。这本质上是一个多任务学习问题,但也带来了超参数复杂度增加、不同任务收敛速度不一致等挑战。
训练策略 | 预训练模型的角色 | 核心优势 | 主要挑战 |
|---|---|---|---|
联合训练 | 正则化/辅助项 | 增强对下游任务的适配性;缓解灾难性遗忘 | 降低模型通用性和可迁移性 |
无监督表示学习 | 特征提取器(冻结) | 保证通用性;防止小样本过拟合 | 无法捕捉下游任务特异性特征 |
预训练-微调两阶段 | 编码器参数初始化 | 兼顾通用性与任务适配性;适用于多种下游任务 | 全参数微调计算成本高;存在灾难性遗忘和过拟合风险 |


随着预训练模型参数规模增大,全参数微调的计算成本急剧上升。参数高效微调技术(Parameter-Efficient Fine-Tuning, PEFT)通过仅调整少量参数来实现接近全参数微调的效果,主要包括三类方法:
当前在药物发现领域,两阶段训练(预训练-微调)已成为主流范式,而重参数化微调仍处于探索阶段。
为缓解预训练任务与下游任务之间的分布偏移(negative transfer)问题,部分工作探索了基于提示学习(Prompt Learning)的微调策略,通过设计任务特定的提示模板来弥合两阶段的语义鸿沟,代表性工作包括 KANO 和 BioT5。
任务目标:设计具备目标性质(高亲和力、低毒性、高活性、结构新颖性)的候选分子。
方法脉络:

任务目标:根据分子结构推断其生化活性、物理化学特性等,是药物筛选的核心环节。
主流范式:大多数方法采用双编码器设计——Transformer 处理 SMILES,GNN 处理 2D/3D 分子图——并以跨模态对比学习作为核心预训练任务。代表性工作包括:
越来越多的工作将对比学习、掩码预测和匹配预测组合使用以提升性质预测精度,并探索加入更多模态(生物医学文本、交互网络)和领域知识(功能团、合成可及性评分)。
任务目标:识别药物联用时发生不良反应的风险,对临床合理用药具有重要意义。
技术特点:与分子性质预测类似,大多数多模态方法将对比学习作为核心任务,但重点在于对齐分子结构模态与分子交互网络模态。异质图神经网络(Heterogeneous GNN)被广泛用于编码包含药物-靶点-疾病-副作用等多类关系的分子交互网络。代表性工作包括 H2D(层次异质图学习框架)和 HetDDI(预训练异质图模型)。
任务目标:判断给定药物分子与靶点蛋白是否能够结合,同时支持药物重定向(Drug Repositioning)。
技术特点:
任务目标:给定分子结构,自动生成涵盖分子名称、化学式、结构特征和功能描述的文字说明。
技术特点:分子描述生成被视为分子与语言的双向翻译任务(同时包含 caption 生成与文本驱动的分子生成)。类似于图像描述生成(Image Captioning),大量工作参考了 BLIP-2 的 Q-Former 架构——通过可学习的查询向量(Query Transformer)桥接冻结的分子编码器与大语言模型(LLM),使 LLM 能够解读分子结构信息。代表性工作包括 MolCA、3D-MOLM、MolFM 等。
综述作者明确归纳了两条具有参考价值的上升趋势:
越来越多的研究将 Transformer 与 GNN 整合为统一编码器,配合多种自监督预训练任务,学习覆盖序列到空间结构的跨模态分子表示,从而提升药物发现任务的精度。
分子描述(Molecule Captions)作为简洁的生物医学文本,为药物发现与大语言模型的深度融合提供了关键接口。
当前瓶颈:现有框架多以粗粒度的对比学习或匹配预测为主要对齐手段,难以捕捉模态内的精细语义结构;同时,实际场景中样本常缺失某些模态,缺乏自动处理缺失模态的弹性机制。
潜在路径:参考计算机视觉中的 BEiT-3、VLMO 等统一多模态框架——将不同模态数据统一编码为序列,送入 Transformer 学习通用表示;设计条件推断机制以处理模态缺失情形。
当前瓶颈:现有多任务预训练框架存在信息冗余——共享空间中可能混入各模态的独特特征,而模态特异性空间可能丢失共有特征,既增加计算冗余,又降低表示质量。
潜在路径:借鉴信息论框架(如互信息最大化/最小化),显式地将跨模态共享信息与模态特异信息解耦,建立同时学习一致性与互补性的多任务预训练目标。
新兴数据模态:
可融合的先验知识:
当前瓶颈:现有分子预训练模型多仅整合 1D 特征(如 MolT5、BioT5),未能充分利用通用大语言模型在长文档逻辑推理和跨领域知识整合方面的能力。
潜在路径:
应用任务 | 代表性方法 | 主要特点 |
|---|---|---|
分子生成 | TamGen, MolGPT, ChatMol, Lingo3DMol, 3DSMILES-GPT | 自回归预训练;强化学习微调 |
分子性质预测 | graphMVP, 3D-Infomax, MOLEBLEND, KANO, MolLM, MoleculeSTM | 对比学习为主;2D/3D 多模态融合 |
DDI 预测 | MRCGNN, H2D, HetDDI, CSCo-DTA | 图对比学习;异质图神经网络 |
DTI 预测 | DrugLAMP, BioT5, MoMu | 掩码/对比学习;提示学习微调 |
分子描述生成 | MolT5, MolCA, GIT-Mol, MolFM, 3D-MOLM, UniMoT | Q-Former 架构;文本-分子双向翻译 |
预训练任务 | 代表方法 |
|---|---|
对比学习 | graphMVP, 3D-Infomax, MoleculeSTM, GeomGCL, MIRACLE |
掩码预测 | ISMol, MolT5, BioT5, GIT-Mol, U2-3DPT |
匹配预测 | MolCA, ISMol, MGIB |
自回归预测 | TamGen, MolGPT, Lingo3DMol, ChatMol, UniMoT |
多任务组合 | MOLEBLEND, KANO, MolFM, 3D-MOLM |