

原文信息 Gazizov A, Lian A, Goverde C, Mou J, Ovchinnikov S, Polizzi NF, Nature Methods, Vol. 23, 626–635 (March 2026) DOI: 10.1038/s41592-026-03011-2 代码与:github.com/sokrypton/AF2BIND 数据库:af2bind.solab.org
小分子药物开发的核心前提,是找到靶蛋白上可被配体占据的结合位点(binding site / ligandable pocket)。这一步直接决定了后续虚拟筛选、分子对接和先导化合物优化的方向。然而,从头预测(de novo prediction)结合位点至今仍是计算生物学中尚未完全解决的挑战。
方法类别 | 代表工具 | 核心原理 | 主要局限 |
|---|---|---|---|
同源迁移 | AlphaFill、GRaSP、3DLigandSite | 基于结构相似性将已知配体迁移至新蛋白 | 对全新折叠(novel folds)或未被配体占据的位点完全失效 |
几何探针法 | fpocket、P2Rank | 用 alpha 球或溶剂可及探针点探测蛋白表面凹陷,随机森林分类 | 偏向深口袋,遗漏浅平功能位点;特征为纯几何,缺乏序列/进化信息 |
从头深度学习 | DeepPocket、ScanNet、GrASP、PUResNet | 端到端神经网络直接学习结合位点特征 | 受限于标注数据量(非冗余结合位点结构仅数千个),易过拟合,泛化性弱 |
序列/结构嵌入迁移 | ESMBind、VN-EGNN | 利用大规模预训练模型(ESM2、ESM1-IF)的嵌入特征训练分类器 | 缺乏目标与配体之间的成对(pairwise)交互信息 |
研究团队的关键假设是:AlphaFold2 在结构预测任务中学到的内部表示,隐式编码了蛋白质小分子结合的信号。理由在于:
AF2BIND(AlphaFold2 bait-informed neural descriptor)是一个两阶段流程:


设计动机:蛋白质小分子接触可用蛋白质-氨基酸接触近似(van der Mer 框架),因此用 20 种标准氨基酸作为配体代理,让 AF2 的注意力机制"感知"可能的结合接触模式。
具体操作:
仅执行单次循环(single recycle),目的是捕获目标残基与诱饵之间的初始注意力信号,避免结构模块任意放置诱饵后引入偏差。
AF2 的成对表示(pair representation)为每对残基分配一个 256 维张量。对于每个目标残基 j,提取其与 20 个诱饵氨基酸的成对嵌入,拼接后得到 20 × 2 × 128 = 5,120 维特征向量(其中 128 维来自 pair representation 的前半部分)。
目标残基 j 的输入特征:
[bait_A_pair, bait_C_pair, bait_D_pair, ..., bait_Y_pair]
维度:20 baits × 2 × 128 = 5,120
↓
逻辑回归:z = Σ(x_ijk × w_ijk) + b
↓
σ(z) = P(bind)_j选择逻辑回归的理由:
使用 MCC(Matthews Correlation Coefficient)和 F1 在十折交叉验证集上取平均确定最优分类阈值:
模型具有良好的校准性:阈值 t 近似等于误检率(1 − recall),即阈值 0.1 约遗漏 10% 真实结合残基,阈值 0.5 约遗漏 50%。这一性质便于用户根据应用场景灵活调整灵敏度与特异性的权衡。
从 2023 年 3 月的完整 PDB 出发,经过严格多级过滤:
过滤条件 | 参数/标准 |
|---|---|
分辨率 | < 3.6 Å |
R 因子 | < 0.35 |
链长 | 40–500 个残基 |
寡聚状态 | 单体(monomeric) |
核酸 | 不含 RNA/DNA 聚合物 |
配体条件 | 埋藏面积 > 100 Ų;重原子数 10–200;非肽段;非共价结合(卟啉除外);非结晶添加剂 |
配体质量 | 实空间相关系数 > 0.85;实空间 R 值 < 0.25;平均占位度 > 0.9 |
接触定义 | 配体-残基重原子距离 ≤ 5 Å |
过滤后保留约 14,000 个 PDB 条目(15,000 条链,~18,000 个配体)。
数据集划分是本工作最值得称道的方法论设计之一。划分基于序列 + 结构 + 口袋三重相似性:
划分逻辑:将约 2,000 个蛋白按与其他蛋白的最小 TM 分从小到大排序(最独特的优先),依次分配到 11 个集合,保证任意两集合间无结构重叠(TM score > 0.5 或共享 ECOD/CATH/SCOP2B/PFAM/InterPro 注释即视为重叠)。第 11 个集合为测试集,其余 10 个用于十折交叉验证。
最终数据量(每折平均):
集合 | 蛋白数量 |
|---|---|
训练集 | ~600 |
验证集 | ~30 |
测试集 | ~70(最终 67 个) |
训练数据标签通过同源扩增:对 15,000 条链中与训练蛋白 TM-score > 0.8 且结合位点残基序列同一性 > 90% 的蛋白,借用其结合位点标签。
L2 正则化权重扫描显示,最优权重为 0.03,此时训练集与验证集的恢复率大致相当,避免过拟合。训练参数:Adam 优化器,学习率 1×10⁻⁴,batch size 12 蛋白,共 320 轮。样本权重为与其他蛋白 TM-score > 0.5 的数量之倒数(下权高冗余样本)。
主要指标为结合残基恢复率(binding-residue recovery):将预测按 P(bind) 从高到低排序,取前 n 个预测(n = 真实结合残基数),计算其中正确命中的比例。该指标不依赖固定阈值,适用于不同置信度尺度的方法间比较。辅助指标为 ROC AUC 和 PR 平均精度(AP)。
表示方法 | 恢复率 | ROC AUC | 说明 |
|---|---|---|---|
AF2-single | 0.454 | 0.840 | AF2 单残基表示,无诱饵 |
ESM2(仅序列) | 0.523 | 0.872 | 序列语言模型,纯序列输入 |
ESM1-IF(仅结构) | 0.637 | 0.928 | 结构条件序列设计模型 |
AF2-pair(AF2BIND) | 0.662 | 0.936 | 成对表示 + 诱饵,本文方法 |
AF2-pair + ESM2 | 0.675 | 0.940 | 联合模型 |
AF2-pair + ESM1-IF | 0.689 | 0.945 | 联合模型 |
AF2-pair + ESM2 + ESM1-IF | 0.690 | 0.945 | 最优联合 |

关键发现:
以下蛋白类别在训练和验证中被完全剔除,仅在测试中评估:

逻辑回归的线性结构允许将每个诱饵氨基酸对 P(bind) 的贡献单独分解:
对 1,896 个训练蛋白及其结合配体进行系统分析,结果显示诱饵激活模式与配体极性(以配体中非碳原子比例衡量)显著相关。
诱饵类型 | 主要诱饵 | 与配体的相关性 | 代表案例 |
|---|---|---|---|
疏水性诱饵 | F、S、I、T(以及 W、L、V 等) | 与配体疏水性正相关(非碳原子比例低) | 4OMJ:结合 2,3-氧化角鲨烯(高度疏水萜类);主激活诱饵为 W、F |
亲水性诱饵 | H、E(以及 Q、N 等) | 与配体亲水性正相关(非碳原子比例高) | 2V2Z:结合 4-二磷酸胞苷-2C-甲基-D-赤藻糖醇(极性底物);主激活诱饵为 Q、N |

诱饵激活图谱相当于一个化学指纹,可用于:
指标 | 数值 |
|---|---|
预测结合位点总数 | 20,302 |
涉及蛋白数 | 13,686 |
与 AlphaFill 无重叠的新位点 | 15,755(77.6%) |
与 P2Rank 无重叠的独特 AF2BIND 位点 | 9,732 |
P2Rank 不预测任何位点但 AF2BIND 有预测的蛋白 | >4,900 |
两方法联合位点总数 | ~29,000(涉及 15,026 蛋白) |

使用 Schrodinger SiteMap 计算 Dscore(加权综合口袋大小、包埋度、亲疏水性),常用可成药性阈值为 0.83。
方法 | 中位 Dscore(全蛋白质组) | 中位 Dscore(Morbid Map) |
|---|---|---|
AF2BIND | 0.891 | 0.911 |
P2Rank | 0.949 | 0.951 |
两种方法预测的位点中位 Dscore 均超过可成药性阈值,但 P2Rank 稍高——这与 P2Rank 偏向深口袋的设计有关,深口袋在几何指标上天然占优,而 AF2BIND 倾向于发现更多浅平位点(在 Dscore 计算中因包埋度低而略有扣分,但这类位点可能具有重要生物学意义)。
AF2BIND 的 cluster_rank 指标与 SiteMap Dscore 的 Spearman 相关系数为 0.40,高于 P2Rank 概率分数与 Dscore 的相关性(0.31)。
在 ~5,700 个 Morbid Map(OMIM)疾病相关蛋白中:
AF2BIND 预测而 P2Rank 遗漏的位点,往往是以下功能性浅平位点:
场景 | 实验设计 | 结论 |
|---|---|---|
小幅构象变化 | 人 μ-阿片受体 4 个晶体结构(平均 Cα RMSD 0.7 Å) | P(bind) 残基水平标准差仅 0.02,且与 P(bind) 均值无相关性 |
中等构象变化(1–3 Å RMSD) | Binding MOAD 数据库,apo/holo 配对,Cα RMSD 1–3 Å,10 对 | Spearman 相关性高,恢复率相近 |
大幅构象变化(>3 Å RMSD) | 腺苷酸激酶(7.1 Å)、麦芽糖结合蛋白(3.8 Å)、钙调蛋白(14.8 Å) | apo 与 holo 状态恢复率相似(0.61–0.82) |
隐蔽位点(cryptic site) | β-内酰胺酶(PDB: 1JWP/1PZO) | apo 状态恢复率仅 0.41,holo 状态 0.68;位点折叠坍塌时模型失效 |
屏蔽模板侧链二面角(仅保留到 Cβ)的模型与保留完整侧链信息的模型性能相当,甚至略优。这一特性在实践中具有重要价值:
在 PDB 中所有已知变构小分子结合位点的子集上评估(39 个 AF2 预测的人类蛋白结构,来自变构位点数据库 ASD):
使用 Cravatt 课题组的全蛋白质组半胱氨酸分析数据集(212 个胰蛋白酶肽段,271 个半胱氨酸)进行交叉验证:
局限性 | 说明 |
|---|---|
隐蔽位点(cryptic sites) | 当结合位点在 apo 状态完全坍塌时(如 β-内酰胺酶案例),AF2BIND 不能可靠预测;需要结合分子动力学模拟或增强采样方法 |
大蛋白稀释效应 | 蛋白链越长,P(bind) 整体幅度越低,需使用域分割算法补偿;当前实现对 ≥ 300 残基蛋白进行自动分割 |
多链复合物缺失 | 数据库中每条链独立建模,跨链结合位点(如界面口袋)被忽略 |
训练集偏差 | 训练集中 96% 为正位结合位点,变构位点代表性不足(仅 1.2%,与 PDB 整体分布一致,但绝对数量少);对变构位点预测校准性稍差 |
20 种诱饵的化学空间局限 | 小分子化学空间远超氨基酸官能团;含氟碳等非天然基团的配体可能信号弱;未来可用多样化化学探针集替换 |
与 AlphaFold3 等新模型的关系 | AF2BIND 基于 AF2 架构;AF3 等新模型已原生支持小分子共结构预测,但 AF2BIND 的无配体从头预测能力仍具独特价值 |
AF2BIND 的核心贡献并非单纯的性能指标提升,而是一个深刻的方法论示范:在极度数据稀缺的生物学任务上,通过迁移大规模预训练模型的内部特征,以极简的分类头实现出色的泛化性。
具体而言:
AF2BIND 并非取代 P2Rank 或 AlphaFill,而是提供互补信息:
AlphaFill → 同源转移位点(已知配体的高质量注释)
P2Rank → 几何深口袋(高 Dscore,高包埋度,传统可成药位点)
AF2BIND → 深口袋 + 浅平功能位点 + 变构位点 + 大分子界面
三者联合 → 最全面的蛋白质组可成药位点图谱短期可行方向:
中长期研究方向: