首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Comput. Sci. | FLOWR: 统一从头设计、片段生长与结合位点优化的AI配体生成模型

Nat. Comput. Sci. | FLOWR: 统一从头设计、片段生长与结合位点优化的AI配体生成模型

作者头像
DrugAI
发布2026-06-01 16:48:05
发布2026-06-01 16:48:05
870
举报

DRUGONE

基于结构的药物发现(Structure-Based Drug Design, SBDD)近年来受益于生成式人工智能的发展,尤其是扩散模型和流匹配模型在三维配体生成方面取得了显著进展。然而,现有方法仍然存在生成效率低、构象质量不稳定、蛋白–配体相互作用恢复能力有限以及难以支持片段优化等问题。

研究人员提出了FLOWR(Flow Matching for Structure-Aware Ligand Generation),一种面向三维配体生成与优化的结构感知流匹配框架。FLOWR结合连续与离散流匹配方法、等变最优传输机制以及高效蛋白口袋编码模块,实现了基于蛋白结合口袋的从头配体设计。同时,研究人员构建了高质量蛋白–配体共晶数据集SPINDR,以解决现有数据集中的结构质量缺陷与数据泄漏问题。

在此基础上,研究人员进一步开发了FLOWR.MULTI模型,使其能够在无需重新训练的情况下完成基于相互作用约束、骨架约束和功能基团约束的配体生成,从而支持片段生长、骨架跳跃和先导化合物优化等任务。实验结果表明,FLOWR在PoseBusters有效性、构象准确性、蛋白–配体相互作用恢复率以及推理速度方面均超越现有扩散模型和流匹配模型,推理速度最高可提升70倍。研究人员认为,FLOWR与FLOWR.MULTI为AI驱动的结构药物设计提供了更加可靠和实用的新范式。

基于结构的药物发现通过利用蛋白质或核酸的三维结构信息,指导活性分子的设计与优化。传统方法主要包括分子对接、虚拟筛选以及结构指导优化等策略,在药物研发中发挥了重要作用。然而,由于分子相互作用复杂、化学空间极其庞大以及结合构象预测困难等因素,这些方法仍然面临明显局限。

近年来,深度学习特别是生成模型的发展,为解决这些问题提供了新的可能。扩散模型能够从随机噪声逐步生成符合结合口袋约束的三维分子,并取得了一系列成功。然而,这类模型通常需要大量迭代采样步骤,因此推理速度较慢;同时,生成结果中仍然可能出现不合理构象、异常化学结构以及药物相容性不足等问题。

流匹配(Flow Matching)模型作为新兴生成范式,能够通过学习连续概率流实现更加高效的分子生成。特别是结合最优传输和等变建模后,在分子生成任务中展现出优异性能。研究人员基于这一思路开发了FLOWR,希望实现兼顾生成质量、推理效率以及多任务适应性的统一结构药物设计框架。

与此同时,研究人员发现现有广泛使用的数据集如PDBBind和CROSSDOCKED2020存在大量结构缺陷、口袋错误匹配以及训练测试泄漏问题,严重影响模型评估的真实性。因此研究人员同步构建了高质量数据集SPINDR,以支持更加可靠的模型训练和评估。

方法

研究人员提出的FLOWR建立在SEMLA等变图神经网络架构之上,通过引入独立蛋白口袋编码器以及蛋白–配体交叉注意力机制,实现结合口袋条件下的三维配体生成。模型同时学习连续变量(原子坐标)和离散变量(原子类型、键类型),并利用等变最优传输减少噪声到目标分子之间的运输成本,从而提高生成稳定性和采样效率。

在生成过程中,FLOWR首先对蛋白结合口袋进行编码,随后通过流匹配逐步将随机噪声转换为符合口袋结构约束的配体。研究人员进一步提出FLOWR.MULTI框架,通过片段条件生成和相互作用条件生成机制,使模型能够支持骨架优化、片段扩展、片段连接以及功能基团引导设计等多种药物设计任务。

此外,研究人员构建了SPINDR数据集。从PLINDER数据集出发,经过严格过滤、蛋白结构修复、氢原子补全、相互作用推断以及数据去冗余处理,最终获得35,666个高质量蛋白–配体复合物,为结构生成模型提供了更可靠的数据基础。

结果

FLOWR整体框架与SPINDR数据集构建

研究人员首先展示了FLOWR的整体架构。模型利用独立口袋编码器对蛋白结合位点进行一次编码,然后在整个采样过程中重复使用该表示,从而避免了传统扩散模型在每一步都重新编码蛋白口袋的问题。与此同时,FLOWR支持蛋白–配体相互作用约束输入,使生成结果能够更加符合目标结合模式。

为了保证训练数据质量,研究人员构建了SPINDR数据集。与CROSSDOCKED和PDBBind相比,SPINDR不仅保留真实晶体结构,而且完成了结构优化、氢原子补全以及蛋白–配体相互作用标注,并严格控制训练集与测试集之间的数据泄漏。最终形成目前最大的高质量蛋白–配体共晶结构数据集之一。

图1:FLOWR整体框架示意图,包括蛋白口袋编码器、交叉注意力模块、流匹配生成过程以及FLOWR.MULTI条件生成机制。

FLOWR在配体生成质量上全面超越现有方法

研究人员首先在CROSSDOCKED2020基准数据集上测试FLOWR,并与Pocket2Mol、DiffSBDD、TargetDiff、DrugFlow和PILOT等模型进行比较。结果显示,FLOWR在PoseBusters有效性、AutoDock Vina评分、键长和键角分布一致性等多个指标上均取得最佳结果。

进一步在SPINDR测试集上评估时,FLOWR的RDKit有效率达到0.94,而PILOT仅为0.79;PoseBusters有效率达到0.88,而PILOT仅为0.71。说明FLOWR能够生成更多化学合理且空间构象正确的配体。

研究人员还发现,FLOWR在推理效率方面具有巨大优势。当采用100步采样时,其速度约为PILOT的20倍;当采样步数降至20步时,仍能保持较高性能,同时实现约70倍加速。

FLOWR生成更合理的三维构象与结合姿态

研究人员进一步分析了生成分子的构象质量。结果表明,FLOWR生成的分子应变能明显低于PILOT,同时AutoDock Vina评分更优,表明生成配体具有更合理的结合构象。

在统计分布层面,FLOWR在键长、键角以及药物性质分布上与真实测试集更加接近,能够更准确学习真实药物化学空间。研究人员还发现,经过简单能量最小化后,FLOWR生成的分子能够进一步获得接近实验晶体结构的低能构象。

整体来看,FLOWR在几乎所有评估指标上均优于PILOT,平均有效性提升约15%,同时保持显著更高的采样效率。

FLOWR显著提高蛋白–配体相互作用恢复能力

蛋白–配体相互作用决定了药物活性和选择性,因此恢复真实结合模式是结构药物设计的重要目标。研究人员利用PLIF指纹评估模型恢复真实相互作用的能力。

结果显示,FLOWR在相互作用恢复率方面达到47.1%,高于PILOT的43.2%;当显式考虑氢原子时,优势进一步扩大。与此同时,FLOWR能够产生更多可用于分析的有效构象,成功率明显高于对照模型。

然而研究人员发现,仅依赖完全从头生成仍难以满足实际先导优化需求,因此提出了FLOWR.MULTI条件生成框架。

FLOWR.MULTI实现相互作用驱动和片段驱动设计

FLOWR.MULTI通过固定关键相互作用原子,并仅对其余部分进行生成,实现了相互作用条件约束设计。结果显示,相互作用恢复率从FLOWR的47.1%提升至76.1%,接近翻倍。与此同时,生成分子的化学多样性仍保持较高水平。

此外,FLOWR.MULTI还能根据给定骨架或功能基团进行定向生成,从而支持片段扩展、骨架优化以及先导化合物优化等任务。研究人员在Lp-PLA2(5YEA)和PDK(4MPE)两个药物靶点上进行了验证。结果表明,不同条件模式下生成的分子均保持较高PoseBusters有效率和较好Vina评分,同时能够准确恢复参考配体的相互作用模式。

特别值得注意的是,不同条件模式能够实现不同程度的化学空间探索。例如从头生成模式具有最高多样性,而功能基团条件模式则能够生成与参考配体更加接近的化学空间。这意味着药物设计人员能够根据研发阶段灵活控制探索与优化之间的平衡。

讨论

研究人员提出的FLOWR和FLOWR.MULTI代表了结构药物设计领域从扩散模型向高效流匹配模型发展的重要一步。通过结合等变流匹配、最优传输以及高效蛋白口袋编码机制,FLOWR不仅显著提高了生成质量,还实现了数量级级别的推理加速。

与现有方法相比,FLOWR最大的优势在于兼顾了三方面能力:高质量从头生成、高效蛋白–配体相互作用建模以及灵活的片段驱动设计。特别是FLOWR.MULTI实现了统一框架下的相互作用约束生成、骨架优化和功能基团引导设计,为真实药物研发流程中的Hit Expansion、Hit-to-Lead以及Lead Optimization提供了统一解决方案。

研究人员同时指出,目前模型仍存在若干限制。例如显式氢原子建模时有效性下降,训练数据覆盖的化学空间仍然有限,蛋白柔性与诱导契合效应尚未纳入建模,以及生成构象的应变能仍高于真实晶体结构。未来可以通过扩大数据规模、引入蛋白动态构象、整合ADMET与可合成性约束以及开展前瞻性实验验证进一步提升模型性能。

总体而言,FLOWR展示了流匹配模型在结构药物设计中的巨大潜力,也为下一代AI驱动配体生成与优化平台提供了新的技术路线。

整理 | DrugOne团队

参考资料

Cremer, J., Irwin, R., Tibo, A. et al. FLOWR: flow matching for structure-aware de novo, interaction- and fragment-based ligand generation. Nat Comput Sci (2026).

https://doi.org/10.1038/s43588-026-00998-8

内容为【DrugOne】公众号原创|转载请注明来源

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档