
DRUGONE
随着测序技术的爆发式发展,蛋白质序列数据规模在短短数十年间增长了数十亿倍。面对这一数据洪流,多序列比对(MSA)作为理解蛋白质进化关系、结构和功能的核心工具,正面临前所未有的计算挑战。
研究人员提出了FAMSA2,一种兼具高精度与高效率的多蛋白序列比对算法。该方法通过结合渐进式比对策略、基于medoid聚类的引导树构建,以及基于最长公共子序列的差异度度量,实现了对超大规模蛋白家族的高效比对。在多个基准测试中,FAMSA2在结构、进化和功能评估指标上均达到或超过当前主流方法,同时运行速度平均提升约400倍,使得百万级甚至千万级序列比对成为可行任务。

近年来,基因组测序和蛋白质结构预测的快速发展,使得蛋白质数据库规模迅速膨胀。诸如全球基因组计划和大规模宏基因组项目不断产生新的序列数据,而AlphaFold等方法的出现则进一步丰富了蛋白结构信息。
然而,与序列搜索和结构预测工具相比,多序列比对方法的发展明显滞后。传统高精度方法在处理数千条序列时已接近计算极限,当数据规模达到数十万甚至百万级时,不仅计算成本急剧增加,结果质量也显著下降。
此外,大规模数据中常常包含噪声,例如非同源序列的混入,这进一步增加了比对难度。因此,研究人员亟需一种能够在大规模、高噪声环境下仍保持高精度和高效率的MSA方法。
FAMSA2正是在这一背景下提出,其目标是实现“规模、速度与精度”的统一。
方法
FAMSA2延续了经典的渐进式比对框架,但在多个关键步骤进行了系统性优化。首先,在引导树构建阶段,研究人员提出了一种基于medoid聚类的随机算法,用于高效近似序列间关系结构。相比传统方法,该策略显著降低计算复杂度,同时保持较高稳定性。
在序列相似性度量方面,FAMSA2采用基于最长公共子序列的差异度定义,使其在面对序列长度差异和高变异性时仍具鲁棒性。同时,通过长度预筛选策略减少不必要的计算,并结合多层并行计算(包括SIMD向量化和多线程机制),显著提升运行效率。
在比对阶段,研究人员引入了双层并行策略,使得大规模profile–profile比对能够充分利用现代多核硬件资源。此外,通过动态部分精修策略,在中间阶段优化比对质量,从而提升最终结果的整体精度。

图1. FAMSA2算法框架与关键技术。
结果
研究人员首先展示了FAMSA2的整体流程,包括从未对齐序列到最终多序列比对结果的完整数据流,以及其在引导树构建、差异度计算和并行比对方面的关键改进。图中还展示了medoid树算法和并行计算机制的核心思想。
在大规模结构基准中实现速度与精度双重突破
研究人员在extHomFam结构基准上对FAMSA2进行评估。该数据集包含多达数百万条序列的蛋白家族,是当前最具挑战性的MSA基准之一。
结果显示,FAMSA2在准确性指标(SP和TC)上达到最高水平,同时仅需约15小时即可完成全部计算,而其他方法通常需要数天甚至数周。在快速模式下,FAMSA2甚至可在不到一小时内完成任务,速度提升超过400倍,同时保持接近最优的精度。
随着序列数量增加,FAMSA2的优势进一步扩大,显示出优异的可扩展性。
在复杂数据与非同源干扰下保持鲁棒性
研究人员构建了包含同源与非同源序列混合的数据集,以模拟真实应用场景中的噪声情况。
结果表明,只有FAMSA系列方法能够完成所有规模的数据比对,而FAMSA2在绝大多数情况下取得最高精度。更重要的是,其性能随着数据规模增加反而提升,这表明其差异度度量能够有效区分相关与无关序列。
在不同规模蛋白家族中保持稳定性能
研究人员进一步分析了模型在不同规模数据集上的表现。FAMSA2在序列数量超过数千时即超越传统方法,并在大规模数据中保持最稳定的性能。
与其他方法相比,其精度下降幅度最小,说明该方法在面对数据扩展时具有更好的稳定性和一致性。

图2. 多维基准测试结果。
结构评估表明其具备优异泛化能力
在基于AlphaFold结构数据的评估中,研究人员采用无需参考对齐的LDDT指标进行评估。
结果显示,FAMSA2在不同规模数据中均取得最高平均得分,并且随着数据规模增加,其性能下降最小。此外,其运行时间远低于其他方法,进一步证明其在结构层面具有良好的泛化能力。
进化信息保留能力显著提升
研究人员通过模拟数据和真实蛋白家族数据,评估比对结果对系统发育分析的影响。
结果表明,FAMSA2在系统发育一致性指标上表现最佳,其生成的比对结果更有利于构建可靠的进化树。这说明该方法不仅优化了对齐精度,还保留了关键的进化信号。
功能位点对齐能力表现优异
在酶活性位点保留能力评估中,研究人员发现FAMSA2能够将绝大多数活性位点集中对齐在相同列中,表现出较低的信息熵。
这一结果表明,该方法不仅在结构和进化层面表现优异,同时在功能相关区域的对齐上也具有较高准确性。
讨论
FAMSA2展示了一种兼顾效率与精度的多序列比对新范式。在当前蛋白质数据爆炸增长的背景下,该方法能够处理百万级甚至千万级序列,为大规模生物信息学分析提供了关键工具。
其成功的核心在于多个层面的协同优化,包括高效的引导树构建、鲁棒的差异度度量以及充分利用硬件资源的并行计算策略。此外,medoid树算法的引入表明,非传统的引导树构建方式同样可以支持高质量比对。
尽管如此,该方法仍依赖于渐进式比对框架,未来仍有空间进一步探索更加全局优化的策略。此外,在极端复杂或高度多样化的数据中,其性能仍有待进一步评估。
总体而言,FAMSA2使多序列比对能力首次真正跟上蛋白质数据增长的步伐,为进化分析、结构预测和功能注释等下游任务提供了坚实基础。
整理 | DrugOne团队
参考资料
Gudyś, A., Zielezinski, A., Notredame, C. et al. Fast and accurate multiple-protein-sequence alignment at scale with FAMSA2. Nat Biotechnol (2026).
https://doi.org/10.1038/s41587-026-03095-3