Nat. Biotechnol. | 实现大规模多蛋白序列比对的高效与高精度统一框架

DrugAI

发布于 2026-04-20 13:14:06

410

DRUGONE

随着测序技术的爆发式发展，蛋白质序列数据规模在短短数十年间增长了数十亿倍。面对这一数据洪流，多序列比对（MSA）作为理解蛋白质进化关系、结构和功能的核心工具，正面临前所未有的计算挑战。

研究人员提出了FAMSA2，一种兼具高精度与高效率的多蛋白序列比对算法。该方法通过结合渐进式比对策略、基于medoid聚类的引导树构建，以及基于最长公共子序列的差异度度量，实现了对超大规模蛋白家族的高效比对。在多个基准测试中，FAMSA2在结构、进化和功能评估指标上均达到或超过当前主流方法，同时运行速度平均提升约400倍，使得百万级甚至千万级序列比对成为可行任务。

近年来，基因组测序和蛋白质结构预测的快速发展，使得蛋白质数据库规模迅速膨胀。诸如全球基因组计划和大规模宏基因组项目不断产生新的序列数据，而AlphaFold等方法的出现则进一步丰富了蛋白结构信息。

然而，与序列搜索和结构预测工具相比，多序列比对方法的发展明显滞后。传统高精度方法在处理数千条序列时已接近计算极限，当数据规模达到数十万甚至百万级时，不仅计算成本急剧增加，结果质量也显著下降。

此外，大规模数据中常常包含噪声，例如非同源序列的混入，这进一步增加了比对难度。因此，研究人员亟需一种能够在大规模、高噪声环境下仍保持高精度和高效率的MSA方法。

FAMSA2正是在这一背景下提出，其目标是实现“规模、速度与精度”的统一。

方法

FAMSA2延续了经典的渐进式比对框架，但在多个关键步骤进行了系统性优化。首先，在引导树构建阶段，研究人员提出了一种基于medoid聚类的随机算法，用于高效近似序列间关系结构。相比传统方法，该策略显著降低计算复杂度，同时保持较高稳定性。

在序列相似性度量方面，FAMSA2采用基于最长公共子序列的差异度定义，使其在面对序列长度差异和高变异性时仍具鲁棒性。同时，通过长度预筛选策略减少不必要的计算，并结合多层并行计算（包括SIMD向量化和多线程机制），显著提升运行效率。

在比对阶段，研究人员引入了双层并行策略，使得大规模profile–profile比对能够充分利用现代多核硬件资源。此外，通过动态部分精修策略，在中间阶段优化比对质量，从而提升最终结果的整体精度。

图1. FAMSA2算法框架与关键技术。

结果

研究人员首先展示了FAMSA2的整体流程，包括从未对齐序列到最终多序列比对结果的完整数据流，以及其在引导树构建、差异度计算和并行比对方面的关键改进。图中还展示了medoid树算法和并行计算机制的核心思想。

在大规模结构基准中实现速度与精度双重突破

研究人员在extHomFam结构基准上对FAMSA2进行评估。该数据集包含多达数百万条序列的蛋白家族，是当前最具挑战性的MSA基准之一。

结果显示，FAMSA2在准确性指标（SP和TC）上达到最高水平，同时仅需约15小时即可完成全部计算，而其他方法通常需要数天甚至数周。在快速模式下，FAMSA2甚至可在不到一小时内完成任务，速度提升超过400倍，同时保持接近最优的精度。

随着序列数量增加，FAMSA2的优势进一步扩大，显示出优异的可扩展性。

在复杂数据与非同源干扰下保持鲁棒性

研究人员构建了包含同源与非同源序列混合的数据集，以模拟真实应用场景中的噪声情况。

结果表明，只有FAMSA系列方法能够完成所有规模的数据比对，而FAMSA2在绝大多数情况下取得最高精度。更重要的是，其性能随着数据规模增加反而提升，这表明其差异度度量能够有效区分相关与无关序列。

在不同规模蛋白家族中保持稳定性能

研究人员进一步分析了模型在不同规模数据集上的表现。FAMSA2在序列数量超过数千时即超越传统方法，并在大规模数据中保持最稳定的性能。

与其他方法相比，其精度下降幅度最小，说明该方法在面对数据扩展时具有更好的稳定性和一致性。

图2. 多维基准测试结果。

结构评估表明其具备优异泛化能力

在基于AlphaFold结构数据的评估中，研究人员采用无需参考对齐的LDDT指标进行评估。

结果显示，FAMSA2在不同规模数据中均取得最高平均得分，并且随着数据规模增加，其性能下降最小。此外，其运行时间远低于其他方法，进一步证明其在结构层面具有良好的泛化能力。

进化信息保留能力显著提升

研究人员通过模拟数据和真实蛋白家族数据，评估比对结果对系统发育分析的影响。

结果表明，FAMSA2在系统发育一致性指标上表现最佳，其生成的比对结果更有利于构建可靠的进化树。这说明该方法不仅优化了对齐精度，还保留了关键的进化信号。

功能位点对齐能力表现优异

在酶活性位点保留能力评估中，研究人员发现FAMSA2能够将绝大多数活性位点集中对齐在相同列中，表现出较低的信息熵。

这一结果表明，该方法不仅在结构和进化层面表现优异，同时在功能相关区域的对齐上也具有较高准确性。

讨论

FAMSA2展示了一种兼顾效率与精度的多序列比对新范式。在当前蛋白质数据爆炸增长的背景下，该方法能够处理百万级甚至千万级序列，为大规模生物信息学分析提供了关键工具。

其成功的核心在于多个层面的协同优化，包括高效的引导树构建、鲁棒的差异度度量以及充分利用硬件资源的并行计算策略。此外，medoid树算法的引入表明，非传统的引导树构建方式同样可以支持高质量比对。

尽管如此，该方法仍依赖于渐进式比对框架，未来仍有空间进一步探索更加全局优化的策略。此外，在极端复杂或高度多样化的数据中，其性能仍有待进一步评估。

总体而言，FAMSA2使多序列比对能力首次真正跟上蛋白质数据增长的步伐，为进化分析、结构预测和功能注释等下游任务提供了坚实基础。

整理 | DrugOne团队

参考资料

Gudyś, A., Zielezinski, A., Notredame, C. et al. Fast and accurate multiple-protein-sequence alignment at scale with FAMSA2. Nat Biotechnol (2026).

https://doi.org/10.1038/s41587-026-03095-3

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-14，如有侵权请联系 cloudcommunity@tencent.com 删除

数据

本文分享自 DrugOne 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

Nat. Biotechnol. | 实现大规模多蛋白序列比对的高效与高精度统一框架

Nat. Biotechnol. | 实现大规模多蛋白序列比对的高效与高精度统一框架

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐