

导读:本文深度解读2026年5月发表于bioRxiv的预印本论文《Affinity Fine-Tuning of Boltz-2: An Open Framework for Protein-Ligand Potency Prediction in Drug Discovery》。该工作由Biogen团队(Amini、Sciabola、Wang)完成,针对Boltz-2模型在实际先导优化项目中的落地痛点,提出了一套轻量级、可复现的项目特异性亲和力微调框架,并通过两项内部研究验证其有效性。
在小分子药物研发流程中,先导化合物优化(Lead Optimization, LO) 阶段的核心目标之一是提升候选分子对靶蛋白的结合亲和力(Binding Affinity)。亲和力通常以 IC₅₀ 或 Kd 等形式表征,在药物发现中与成药性、选择性共同构成"三角优化"的核心。
准确的计算亲和力预测方法可以:
当前主流计算方法可分为三类,各有明显的权衡:
方法类别 | 代表工具 | 精度 | 计算成本 | 可扩展性 |
|---|---|---|---|---|
物理自由能方法 | FEP+, Thermodynamic Integration | ★★★★★ | 极高(数天/分子) | 低 |
近似物理方法 | MM/GBSA, MM/PBSA | ★★★☆☆ | 中等 | 中 |
机器学习方法 | KDeep,DeltaDeltaG | ★★★☆☆ | 低 | 高,但泛化性受限 |
共折叠模型 | AlphaFold3, Boltz-2 | ★★★★☆ | 低–中 | 高(含结构信息) |
FEP+(自由能微扰,Free Energy Perturbation) 长期以来是先导优化中排序同系列配体的黄金标准。然而,其依赖分子动力学采样和精心构建的扰动图(perturbation map),导致:
以AlphaFold3为开端,Boltz系列模型将蛋白与配体的结构预测统一在单一框架内,实现了联合结构-亲和力预测的范式转变:
然而,Boltz-2原始论文未公开训练方案(training recipe),导致研究者无法利用项目内部不断积累的实验测量数据对模型进行定制化适配——这恰恰是先导优化阶段最宝贵的信息资产。
论文清晰地指出了一个领域内公认但未被充分解决的矛盾:
任何基于公开数据训练的ML亲和力模型,在应用于真实药物发现项目时,均面临严重的分布外(out-of-distribution)泛化问题。
具体体现在三个维度:
论文中的实验数据有力佐证了这一问题:KDEEP默认版本在5个基准数据集中有3个出现负Pearson相关(R < 0),意味着在这些靶点上直接使用公开模型会产生误导性排序。
本工作的核心贡献是在公开Boltz-2代码库上构建了一套完整的微调基础设施,包含四个相互配合的技术模块。
模型对连续亲和力值(pIC₅₀)进行回归预测,采用Huber损失替代均方误差(MSE):
其中 ,以pIC₅₀单位计(即半个数量级)。
选择Huber损失的动机:内部测定数据存在典型的重尾分布(heavy-tailed distribution)——少数化合物因合成错误、测定失败或真实的非线性效应而产生异常值。MSE对这些异常值极敏感(损失与残差平方成比例),而Huber损失在大残差时退化为线性惩罚,有效抑制异常值对梯度的主导效应。
此外,论文还实现了成对排序损失(pairwise ranking loss) 和焦点二元分类损失(focal binary classification loss),但在所有报告实验中权重设为零,仅使用连续回归损失,为后续工作留下了扩展空间。
这是实现高效微调的关键设计决策。Boltz-2整体参数量约为515M,全量微调不仅计算成本高,在小数据集上还极易过拟合。
框架通过affinity_only_finetuning标志,将梯度更新严格限制在三个亲和力相关模块:
affinity_moduleaffinity_module1affinity_module2可训练参数从515M压缩至8.7M(约1.7%),同时所有冻结模块切换至.eval()模式,禁用dropout等随机操作,确保推理过程的确定性。
这一设计的理论依据是:Boltz-2的主干网络(trunk)在大量公开蛋白-配体数据上已学习到丰富的结构表示,这些通用表示可以作为固定特征提取器迁移到新靶点,而亲和力头则负责学习如何将这些表示映射到项目特定的pIC₅₀空间。
核心挑战:在参数全部冻结的情况下,如果每次微调迭代都重新通过整个Boltz-2主干进行前向传播,大量计算是冗余的。
解决方案:两阶段工作流
阶段一(预处理):将完整Boltz-2模型对整个数据集运行一次,缓存每个样本的单表示(single representations) 和对表示(pair representations)。
阶段二(微调):直接从磁盘加载缓存的表示,跳过冻结的主干和结构模块,仅执行亲和力头的前向和反向传播。
一个关键的工程细节:亲和力微调使用以配体为中心的裁剪(ligand-centered cropping),因此缓存的对表示必须重映射到裁剪后的token子集。框架通过在预处理阶段跟踪原始token索引,在微调时对预计算的pair张量进行重新索引来解决这一问题。
这一设计将微调的计算瓶颈从O(N × T_trunk)降低至O(N × T_head),使单GPU数小时内完成项目级适配成为可能。
每条训练记录被封装为AffinityInfo对象,包含:
注释从YAML输入文件解析,并通过特征化器(featurizer)传播到每个样本的真实标签,实现从原始实验数据到模型输入的端到端流水线。
采用Bansal et al.(2024)发布的基准数据集:
方法 | 类别 | 说明 |
|---|---|---|
FEP+ | 物理方法 | 原始基准中最强基线 |
DeltaDeltaG | ML方法 | 专为同系列成对差异学习设计 |
KDEEP(默认) | ML方法 | 基于3D卷积网络,开箱即用 |
KDEEP(微调) | ML方法 | 同等项目数据重训练 |
Boltz-2(默认) | 共折叠 | 公开检查点,无适配 |
Boltz-2(微调) | 共折叠 | 本文方法 |

本研究的设计极为贴近真实药物研发场景:
这种时间序列评估规避了常见的数据泄露问题(如随机划分导致训练集和测试集结构相似),真实反映了模型在"预测未来"场景下的实用价值。
方法 | 19切片均值R | 说明 |
|---|---|---|
Boltz-2(微调) | 0.76 | 本文方法,稳定领先 |
Boltz-2(默认) | 0.38 | 基础迁移信号,全程平稳但偏低 |
KDEEP(微调) | 与Boltz-2(微调)相近 | 在2个切片超越 |
Docking(Glide SP) | 静态基线 | 多数切片被微调Boltz-2超越 |

关键观察:
Boltz-2主干在大量公开蛋白-配体复合物数据上训练,学习到了关于分子间相互作用的丰富几何和化学表示。这些表示编码了:
这些通用特征对大多数靶点都有价值,因此可以作为高质量的固定特征提取器。
微调过程中,亲和力头学习到的是:
这种信息在公开数据中几乎不存在,只能从内部测定数据中学习。
这一结果表面上令人惊讶,实际有充分理论支撑:信息瓶颈原理。
在特征提取质量足够高的情况下,从特征到标签的映射关系(亲和力头的任务)本质上是一个相对低维的问题。过多的参数反而会导致在小数据集上过拟合。8.7M的规模恰好在表达能力和泛化之间取得平衡。
T1是一个含大型疏水口袋和多结合模式的酶靶点,是原始基准中所有方法表现最差的靶点。微调后Boltz-2(R ≈ 0.40)相对FEP+(R ≈ 0.43)仍有小幅差距。
论文指出,这一差距可能反映的是结合位点本身的难度而非微调方法的局限——T1在原始基准中即是挑战最大的靶点,所有方法均未能展现突出性能。未来方向可能包括引入多结合模式感知的亲和力头设计。
对于有意将此框架应用于实际项目的研究者,论文隐含了以下实践指导:
数据准备
计算资源
部署建议
这项工作为基于结构的模型在特定化学项目中的适配提供了一种范式——不是重新训练整个基础模型,而是通过轻量级的任务头微调来利用内部实验数据。随着Boltz系列模型持续演进,这一框架的价值将随之放大。
但是值得注意的是微调Boltz-2 和 微调KDEEP性能并无太大差异,故 路漫漫,道阻且长~