首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | AF2BIND:借助 AlphaFold2 的成对表示,从头预测蛋白质小分子结合位点

Nat. Methods | AF2BIND:借助 AlphaFold2 的成对表示,从头预测蛋白质小分子结合位点

作者头像
DrugIntel
发布2026-04-21 11:12:27
发布2026-04-21 11:12:27
80
举报

原文信息 Gazizov A, Lian A, Goverde C, Mou J, Ovchinnikov S, Polizzi NF, Nature Methods, Vol. 23, 626–635 (March 2026) DOI: 10.1038/s41592-026-03011-2 代码与:github.com/sokrypton/AF2BIND 数据库:af2bind.solab.org


目录

  1. 1. 研究背景与问题
  2. 2. 核心方法设计
  3. 3. 训练策略与数据集构建
  4. 4. 性能评估与对比
  5. 5. 模型解释性:诱饵激活与配体极性预测
  6. 6. 全人类蛋白质组扫描
  7. 7. 鲁棒性分析
  8. 8. 局限性
  9. 9. 综合评价与展望

一、研究背景与问题

1.1 药物发现中的"第零步"难题

小分子药物开发的核心前提,是找到靶蛋白上可被配体占据的结合位点(binding site / ligandable pocket)。这一步直接决定了后续虚拟筛选、分子对接和先导化合物优化的方向。然而,从头预测(de novo prediction)结合位点至今仍是计算生物学中尚未完全解决的挑战。

1.2 现有方法的分类与局限

方法类别

代表工具

核心原理

主要局限

同源迁移

AlphaFill、GRaSP、3DLigandSite

基于结构相似性将已知配体迁移至新蛋白

对全新折叠(novel folds)或未被配体占据的位点完全失效

几何探针法

fpocket、P2Rank

用 alpha 球或溶剂可及探针点探测蛋白表面凹陷,随机森林分类

偏向深口袋,遗漏浅平功能位点;特征为纯几何,缺乏序列/进化信息

从头深度学习

DeepPocket、ScanNet、GrASP、PUResNet

端到端神经网络直接学习结合位点特征

受限于标注数据量(非冗余结合位点结构仅数千个),易过拟合,泛化性弱

序列/结构嵌入迁移

ESMBind、VN-EGNN

利用大规模预训练模型(ESM2、ESM1-IF)的嵌入特征训练分类器

缺乏目标与配体之间的成对(pairwise)交互信息

1.3 本文的核心洞见

研究团队的关键假设是:AlphaFold2 在结构预测任务中学到的内部表示,隐式编码了蛋白质小分子结合的信号。理由在于:

  1. 1. AF2 的训练集包含大量含有小分子的蛋白质晶体结构,有时甚至能预测出正确的结合位点旋转异构体(如金属离子或血红素结合位点的残基)。
  2. 2. AF2 能准确预测蛋白质-多肽复合结构,即使多肽未出现在训练集中——说明其特征对非共价相互作用具有迁移能力。
  3. 3. 蛋白质小分子接触在几何和化学上可由蛋白质-氨基酸接触近似描述(van der Mer 概念);约 40,000 种 PDB 小分子中,平均 ~50% 的原子环境可被 20 种氨基酸的 Morgan 指纹覆盖。

二、核心方法设计

2.1 方法概述

AF2BIND(AlphaFold2 bait-informed neural descriptor)是一个两阶段流程:

  1. 1. 特征提取:将目标蛋白与 20 个"诱饵"氨基酸一同输入 AF2,执行单次前向传播(single forward pass),提取成对表示(pair representation)
  2. 2. 分类预测:将提取的成对特征输入逻辑回归模型,为每个残基输出结合概率 P(bind)

2.2 诱饵氨基酸(Bait Residues)机制

设计动机:蛋白质小分子接触可用蛋白质-氨基酸接触近似(van der Mer 框架),因此用 20 种标准氨基酸作为配体代理,让 AF2 的注意力机制"感知"可能的结合接触模式。

具体操作

  • • 将全部 20 种氨基酸各一个,作为独立的单残基链(individual chains)附加到目标蛋白序列末尾
  • • 每个诱饵氨基酸之间,以及与目标蛋白之间,使用**大残基偏移量(offset = 50)**分隔,确保 AF2 将其视为空间上分离的独立链
  • • 仅提供目标蛋白的骨架结构作为模板(不提供多序列比对 MSA),诱饵氨基酸不提供模板
  • • 骨架模板中屏蔽侧链二面角(mask sidechain dihedrals),仅保留 Cβ 以上的骨架坐标

仅执行单次循环(single recycle),目的是捕获目标残基与诱饵之间的初始注意力信号,避免结构模块任意放置诱饵后引入偏差。

2.3 特征维度与模型架构

AF2 的成对表示(pair representation)为每对残基分配一个 256 维张量。对于每个目标残基 j,提取其与 20 个诱饵氨基酸的成对嵌入,拼接后得到 20 × 2 × 128 = 5,120 维特征向量(其中 128 维来自 pair representation 的前半部分)。

代码语言:javascript
复制
目标残基 j 的输入特征:
  [bait_A_pair, bait_C_pair, bait_D_pair, ..., bait_Y_pair]
  维度:20 baits × 2 × 128 = 5,120
           ↓
  逻辑回归:z = Σ(x_ijk × w_ijk) + b
           ↓
  σ(z) = P(bind)_j

选择逻辑回归的理由

  • 最大可解释性:权重直接映射到 20 个诱饵氨基酸,可单独量化每个诱饵的贡献
  • 避免过拟合:非冗余结合位点训练数据仅数千条,复杂模型易过拟合
  • 计算高效:推理阶段的瓶颈在 AF2 前向传播,而非分类头

2.4 阈值选择与模型校准

使用 MCC(Matthews Correlation Coefficient)和 F1 在十折交叉验证集上取平均确定最优分类阈值:

  • P(bind) 阈值 = 0.28
  • • 平均召回率(sensitivity):67%
  • • 假阳性率(FPR):4.3%
  • • 精确率(precision):63%

模型具有良好的校准性:阈值 t 近似等于误检率(1 − recall),即阈值 0.1 约遗漏 10% 真实结合残基,阈值 0.5 约遗漏 50%。这一性质便于用户根据应用场景灵活调整灵敏度与特异性的权衡。


三、训练策略与数据集构建

3.1 数据筛选流程

从 2023 年 3 月的完整 PDB 出发,经过严格多级过滤:

过滤条件

参数/标准

分辨率

< 3.6 Å

R 因子

< 0.35

链长

40–500 个残基

寡聚状态

单体(monomeric)

核酸

不含 RNA/DNA 聚合物

配体条件

埋藏面积 > 100 Ų;重原子数 10–200;非肽段;非共价结合(卟啉除外);非结晶添加剂

配体质量

实空间相关系数 > 0.85;实空间 R 值 < 0.25;平均占位度 > 0.9

接触定义

配体-残基重原子距离 ≤ 5 Å

过滤后保留约 14,000 个 PDB 条目(15,000 条链,~18,000 个配体)

3.2 严格的训练/验证/测试集划分

数据集划分是本工作最值得称道的方法论设计之一。划分基于序列 + 结构 + 口袋三重相似性:

  • 序列聚类:mmseqs2,30% 序列同一性 + 80% 覆盖度
  • 结构聚类:Foldseek,合并两种聚类结果(1,280 个聚类)
  • 口袋相似性:TM-align 对所有口袋对计算 TM 分,调和平均 > 0.6 的口袋不得跨集分布

划分逻辑:将约 2,000 个蛋白按与其他蛋白的最小 TM 分从小到大排序(最独特的优先),依次分配到 11 个集合,保证任意两集合间无结构重叠(TM score > 0.5 或共享 ECOD/CATH/SCOP2B/PFAM/InterPro 注释即视为重叠)。第 11 个集合为测试集,其余 10 个用于十折交叉验证。

最终数据量(每折平均)

集合

蛋白数量

训练集

~600

验证集

~30

测试集

~70(最终 67 个)

训练数据标签通过同源扩增:对 15,000 条链中与训练蛋白 TM-score > 0.8 且结合位点残基序列同一性 > 90% 的蛋白,借用其结合位点标签。

3.3 正则化

L2 正则化权重扫描显示,最优权重为 0.03,此时训练集与验证集的恢复率大致相当,避免过拟合。训练参数:Adam 优化器,学习率 1×10⁻⁴,batch size 12 蛋白,共 320 轮。样本权重为与其他蛋白 TM-score > 0.5 的数量之倒数(下权高冗余样本)。


四、性能评估与对比

4.1 评估指标说明

主要指标为结合残基恢复率(binding-residue recovery):将预测按 P(bind) 从高到低排序,取前 n 个预测(n = 真实结合残基数),计算其中正确命中的比例。该指标不依赖固定阈值,适用于不同置信度尺度的方法间比较。辅助指标为 ROC AUC 和 PR 平均精度(AP)。

4.2 不同预训练表示的对比

表示方法

恢复率

ROC AUC

说明

AF2-single

0.454

0.840

AF2 单残基表示,无诱饵

ESM2(仅序列)

0.523

0.872

序列语言模型,纯序列输入

ESM1-IF(仅结构)

0.637

0.928

结构条件序列设计模型

AF2-pair(AF2BIND)

0.662

0.936

成对表示 + 诱饵,本文方法

AF2-pair + ESM2

0.675

0.940

联合模型

AF2-pair + ESM1-IF

0.689

0.945

联合模型

AF2-pair + ESM2 + ESM1-IF

0.690

0.945

最优联合

关键发现

  • • AF2 成对表示的性能提升主要来自诱饵机制——单残基 AF2 表示(0.454)远不及成对表示(0.662)
  • • 仅用序列的 ESM2 达到 52.3% 恢复率,说明结合位点在进化上高度保守
  • • ESM1-IF 仅用骨架坐标即达 63.7%,提示蛋白骨架本身已编码结合位点位置信息
  • • 联合模型提升有限(+2–3%),作者认为各表示捕获了部分冗余信息,同时考虑到逻辑回归的可解释性优势,主推 AF2-pair 单一模型

4.3 保留蛋白家族的泛化测试

以下蛋白类别在训练和验证中被完全剔除,仅在测试中评估:

  • G 蛋白偶联受体(GPCR):以人 μ-阿片受体(PDB: 8EF5,结合芬太尼)为例,AF2BIND 精确预测了正位(orthosteric)结合位点残基层级,且 P(bind) 与氨基酸保守性无显著相关性
  • 溴结构域(bromodomain):以 BRD4 第二溴结构域(PDB: 7RUH)为例,无需任何配体信息即实现高置信度预测

五、模型解释性:诱饵激活与配体极性预测

5.1 诱饵激活分析原理

逻辑回归的线性结构允许将每个诱饵氨基酸对 P(bind) 的贡献单独分解:

对 1,896 个训练蛋白及其结合配体进行系统分析,结果显示诱饵激活模式与配体极性(以配体中非碳原子比例衡量)显著相关。

5.2 疏水性与亲水性诱饵的分工

诱饵类型

主要诱饵

与配体的相关性

代表案例

疏水性诱饵

F、S、I、T(以及 W、L、V 等)

与配体疏水性正相关(非碳原子比例低)

4OMJ:结合 2,3-氧化角鲨烯(高度疏水萜类);主激活诱饵为 W、F

亲水性诱饵

H、E(以及 Q、N 等)

与配体亲水性正相关(非碳原子比例高)

2V2Z:结合 4-二磷酸胞苷-2C-甲基-D-赤藻糖醇(极性底物);主激活诱饵为 Q、N

5.3 实际意义

诱饵激活图谱相当于一个化学指纹,可用于:

  • 配体性质预测:在无任何配体信息的情况下,推断结合位点适合疏水性还是亲水性小分子
  • 口袋分类:辅助区分可能的内源性配体类型(如脂类 vs 核苷酸 vs 金属螯合剂)
  • 未来应用:结合配体身份预测——已知结合残基组成,反推可能的配体化学结构

六、全人类蛋白质组扫描

6.1 计算流程

  1. 1. 蛋白处理:基于 pLDDT 分值修剪低置信度区段(N/C 末端 pLDDT < 50;内部连续 ≥7 残基 pLDDT < 50 的区段删除)
  2. 2. 域分割:依据 ECOD 域定义,将大蛋白分割为 < 300 残基的子图或成对接触域(域间接触:任意两域内至少 5 个残基彼此 ≤ 5 Å);逐域运行 AF2BIND,域间接触残基的 P(bind) 置零
  3. 3. 溶剂可及性过滤:fractional SASA < 0.03 的深度埋藏残基 P(bind) 置零
  4. 4. 聚类成口袋:DBSCAN 聚类(eps = 6 Å,min_samples = 3,自定义距离为残基重原子最近距离),聚类数 > 50 残基的用 k-means 细分,< 5 残基的口袋舍弃
  5. 5. 口袋评分:cluster_rank(前 N = 23 个最高 P(bind) 残基均值)和 CDF z-score

6.2 主要统计结果

指标

数值

预测结合位点总数

20,302

涉及蛋白数

13,686

与 AlphaFill 无重叠的新位点

15,755(77.6%)

与 P2Rank 无重叠的独特 AF2BIND 位点

9,732

P2Rank 不预测任何位点但 AF2BIND 有预测的蛋白

>4,900

两方法联合位点总数

~29,000(涉及 15,026 蛋白)

6.3 位点质量评估(SiteMap Dscore)

使用 Schrodinger SiteMap 计算 Dscore(加权综合口袋大小、包埋度、亲疏水性),常用可成药性阈值为 0.83。

方法

中位 Dscore(全蛋白质组)

中位 Dscore(Morbid Map)

AF2BIND

0.891

0.911

P2Rank

0.949

0.951

两种方法预测的位点中位 Dscore 均超过可成药性阈值,但 P2Rank 稍高——这与 P2Rank 偏向深口袋的设计有关,深口袋在几何指标上天然占优,而 AF2BIND 倾向于发现更多浅平位点(在 Dscore 计算中因包埋度低而略有扣分,但这类位点可能具有重要生物学意义)。

AF2BIND 的 cluster_rank 指标与 SiteMap Dscore 的 Spearman 相关系数为 0.40,高于 P2Rank 概率分数与 Dscore 的相关性(0.31)。

6.4 Morbid Map 疾病蛋白分析

在 ~5,700 个 Morbid Map(OMIM)疾病相关蛋白中:

  • • AF2BIND 在 3,556 个蛋白中预测到结合位点
  • • 其中 527 个蛋白无 P2Rank 预测
  • 411 个疾病蛋白同时无 AlphaFill 和 P2Rank 覆盖
  • • 超过 950 个独特位点由 AF2BIND 独家发现,且不与 AlphaFill 或 P2Rank 重叠

6.5 AF2BIND 独特发现的位点类型

AF2BIND 预测而 P2Rank 遗漏的位点,往往是以下功能性浅平位点:

  • 蛋白-肽段界面:如 dynactin 微管结合亚基(Q14203)的 CAP-Gly 域,结合 Clip-Zn2 锌指域和微管正端三个 C 末端残基
  • 蛋白-RNA 界面:如端粒酶(O60832)蛋白-RNA 接触面(PDB: 8OUE)
  • 蛋白-DNA 界面:如垂体特异性转录因子 1(P28069)弥散蛋白-DNA 接触面(PDB: 5WC9)
  • 蛋白-蛋白相互作用(PPI)位点:已证实可被小分子抑制剂结合的 menin、MCL1 等靶点

七、鲁棒性分析

7.1 对骨架构象变化的鲁棒性

场景

实验设计

结论

小幅构象变化

人 μ-阿片受体 4 个晶体结构(平均 Cα RMSD 0.7 Å)

P(bind) 残基水平标准差仅 0.02,且与 P(bind) 均值无相关性

中等构象变化(1–3 Å RMSD)

Binding MOAD 数据库,apo/holo 配对,Cα RMSD 1–3 Å,10 对

Spearman 相关性高,恢复率相近

大幅构象变化(>3 Å RMSD)

腺苷酸激酶(7.1 Å)、麦芽糖结合蛋白(3.8 Å)、钙调蛋白(14.8 Å)

apo 与 holo 状态恢复率相似(0.61–0.82)

隐蔽位点(cryptic site)

β-内酰胺酶(PDB: 1JWP/1PZO)

apo 状态恢复率仅 0.41,holo 状态 0.68;位点折叠坍塌时模型失效

7.2 对侧链信息的不敏感性

屏蔽模板侧链二面角(仅保留到 Cβ)的模型与保留完整侧链信息的模型性能相当,甚至略优。这一特性在实践中具有重要价值:

  • • AF2 预测结构的侧链不确定性高,屏蔽后反而减少噪声
  • • 使模型天然适用于 apo 结构和预测结构(侧链往往不可靠)
  • • 结合位点残基在 apo-holo 转换中最常见的差异恰恰是旋转异构体变化,不敏感于此避免了系统性偏差

7.3 变构位点预测能力

在 PDB 中所有已知变构小分子结合位点的子集上评估(39 个 AF2 预测的人类蛋白结构,来自变构位点数据库 ASD):

  • • AF2BIND 正确预测了 约 2/3 的变构位点
  • • PARP14 macrodomain 2 案例:AF2 预测结构中一个 loop 遮挡了变构口袋(整体 Cα RMSD 1.9 Å),但 AF2BIND 仍成功预测此变构位点
  • • 变构蛋白中模型校准稍差(阈值与误检率的一致性弱于正位结合蛋白),但 ROC AUC 仍达 0.91

7.4 与化学蛋白质组学数据的互补性

使用 Cravatt 课题组的全蛋白质组半胱氨酸分析数据集(212 个胰蛋白酶肽段,271 个半胱氨酸)进行交叉验证:

  • • AF2BIND 在 ~1/3 的配体化半胱氨酸附近(Cα 距离 ≤ 12 Å)预测到结合位点(78/212)
  • • P2Rank 命中率相近(84/212)
  • • AF2BIND 独家命中 18 个蛋白,P2Rank 独家命中 23 个蛋白
  • • 联合使用可覆盖约 **102/212(48%)**的配体化肽段

八、局限性

局限性

说明

隐蔽位点(cryptic sites)

当结合位点在 apo 状态完全坍塌时(如 β-内酰胺酶案例),AF2BIND 不能可靠预测;需要结合分子动力学模拟或增强采样方法

大蛋白稀释效应

蛋白链越长,P(bind) 整体幅度越低,需使用域分割算法补偿;当前实现对 ≥ 300 残基蛋白进行自动分割

多链复合物缺失

数据库中每条链独立建模,跨链结合位点(如界面口袋)被忽略

训练集偏差

训练集中 96% 为正位结合位点,变构位点代表性不足(仅 1.2%,与 PDB 整体分布一致,但绝对数量少);对变构位点预测校准性稍差

20 种诱饵的化学空间局限

小分子化学空间远超氨基酸官能团;含氟碳等非天然基团的配体可能信号弱;未来可用多样化化学探针集替换

与 AlphaFold3 等新模型的关系

AF2BIND 基于 AF2 架构;AF3 等新模型已原生支持小分子共结构预测,但 AF2BIND 的无配体从头预测能力仍具独特价值


九、综合评价与展望

9.1 方法论贡献的核心价值

AF2BIND 的核心贡献并非单纯的性能指标提升,而是一个深刻的方法论示范:在极度数据稀缺的生物学任务上,通过迁移大规模预训练模型的内部特征,以极简的分类头实现出色的泛化性

具体而言:

  • • AF2 的训练目标(结构预测)与结合位点预测表面上正交,但共享的信息底层(序列-结构协同进化、"受挫"区域、残基间相互作用模式)使特征迁移成为可能
  • • 逻辑回归头在 < 700 个非冗余训练蛋白的情况下实现了 66% 恢复率和 0.936 ROC AUC——这在端到端深度学习方法中几乎无法实现
  • • 诱饵机制本质上将蛋白质小分子结合问题转化为 AF2 更熟悉的"蛋白-蛋白共折叠"语境,精巧地利用了模型的已有能力

9.2 与现有方法的互补性

AF2BIND 并非取代 P2Rank 或 AlphaFill,而是提供互补信息:

代码语言:javascript
复制
AlphaFill  → 同源转移位点(已知配体的高质量注释)
P2Rank     → 几何深口袋(高 Dscore,高包埋度,传统可成药位点)
AF2BIND    → 深口袋 + 浅平功能位点 + 变构位点 + 大分子界面
三者联合   → 最全面的蛋白质组可成药位点图谱

9.3 未来研究方向

短期可行方向

  • • 以多样化化学探针集(FTSite 类方法的探针片段库)替换 20 种氨基酸诱饵,扩大化学空间覆盖度
  • • 与 AlphaFold3、Boltz-1、Chai-1 等原生支持小分子的新一代结构预测模型集成
  • • 将 P(bind) 高分位点作为口袋约束直接整合到分子对接(docking)中,提高命中率

中长期研究方向

  • • 将诱饵激活图谱发展为配体身份预测模型(给定结合位点残基,预测可能的配体化学骨架)
  • • 开发专门针对隐蔽/变构位点的增强版本(结合 MD 模拟构象系综)
  • • 拓展至非人类蛋白质组(细菌、病毒、非模式生物),利用 ESM Metagenomic Atlas 的海量预测结构
  • • 结合化学蛋白质组学大规模实验数据(如 cysteine profiling、ABPP)进行监督式改进
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 目录
  • 一、研究背景与问题
    • 1.1 药物发现中的"第零步"难题
    • 1.2 现有方法的分类与局限
    • 1.3 本文的核心洞见
  • 二、核心方法设计
    • 2.1 方法概述
    • 2.2 诱饵氨基酸(Bait Residues)机制
    • 2.3 特征维度与模型架构
    • 2.4 阈值选择与模型校准
  • 三、训练策略与数据集构建
    • 3.1 数据筛选流程
    • 3.2 严格的训练/验证/测试集划分
    • 3.3 正则化
  • 四、性能评估与对比
    • 4.1 评估指标说明
    • 4.2 不同预训练表示的对比
    • 4.3 保留蛋白家族的泛化测试
  • 五、模型解释性:诱饵激活与配体极性预测
    • 5.1 诱饵激活分析原理
    • 5.2 疏水性与亲水性诱饵的分工
    • 5.3 实际意义
  • 六、全人类蛋白质组扫描
    • 6.1 计算流程
    • 6.2 主要统计结果
    • 6.3 位点质量评估(SiteMap Dscore)
    • 6.4 Morbid Map 疾病蛋白分析
    • 6.5 AF2BIND 独特发现的位点类型
  • 七、鲁棒性分析
    • 7.1 对骨架构象变化的鲁棒性
    • 7.2 对侧链信息的不敏感性
    • 7.3 变构位点预测能力
    • 7.4 与化学蛋白质组学数据的互补性
  • 八、局限性
  • 九、综合评价与展望
    • 9.1 方法论贡献的核心价值
    • 9.2 与现有方法的互补性
    • 9.3 未来研究方向
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档