首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Methods | 迈向进化与功能统一的RNA基础模型

Nat. Methods | 迈向进化与功能统一的RNA基础模型

作者头像
DrugAI
发布2026-04-20 13:15:12
发布2026-04-20 13:15:12
410
举报

DRUGONE

随着基因组数据的快速积累,研究人员对成熟RNA关键功能属性的预测能力仍然有限。为此,研究人员提出了一种新型RNA基础模型Orthrus,该模型基于对比学习进行自监督预训练,并引入生物学驱动的数据增强策略。

Orthrus通过最大化来源于可变剪接异构体和跨物种同源转录本之间的表示相似性,学习到能够同时反映功能与进化关系的潜在空间。实验表明,该模型在多种mRNA性质预测任务中优于现有基因组基础模型,并且仅需少量微调数据即可达到高性能。此外,Orthrus能够区分同一基因不同转录本的功能差异,为解析RNA异构体功能提供了新的工具。

成熟mRNA是蛋白质合成的核心载体,其序列特征直接决定了转录本的稳定性、定位以及翻译效率,从而影响细胞功能与疾病过程。尽管实验方法在RNA研究中发挥了重要作用,但其成本高、效率低,难以满足大规模研究需求。

近年来,深度学习模型为RNA功能预测提供了新的途径,尤其是基础模型通过自监督学习可以在无标注数据上学习序列表示。然而,现有模型大多借鉴自然语言处理中的训练策略,例如掩码预测或下一个token预测,这些方法并未充分利用生物学规律。

基因组数据具有独特特性:大量序列区域缺乏功能约束,信息密度不均匀,使得传统重建型自监督目标容易学习到无关信息。此外,单纯依赖模型规模扩展也难以持续提升性能。

因此,研究人员提出一种新的思路:通过引入进化与剪接机制作为先验,构建更符合生物学本质的表示学习方法。

方法

研究人员构建了Orthrus模型,其核心是基于对比学习的自监督训练框架。训练数据来源于两类生物学关系:一类是同一基因的不同剪接异构体,另一类是不同物种间的同源转录本。通过将这些具有功能相关性的序列构建为正样本对,模型被训练为在潜在空间中拉近其距离,同时区分无关序列。

模型采用Mamba结构编码RNA序列,并通过多层感知机进行投影,最终学习到统一的RNA表示。在训练完成后,仅保留编码器输出作为嵌入,用于下游任务预测。

结果

生物学驱动的对比学习框架

研究人员构建了一个大规模对比学习数据集,包含数千万转录本以及数亿对正样本。这些正样本来自剪接异构体与跨物种同源关系,使模型能够在训练过程中捕捉“功能保持但序列变化”的模式。

这种设计使得模型能够聚焦于具有生物学意义的序列区域,而非简单重建序列本身,从而显著提升表示质量。

图1:Orthrus整体框架。

RNA表示能够预测多种分子属性

研究人员通过线性探测评估模型表示能力,发现Orthrus嵌入能够准确预测多种RNA结构与功能属性,包括UTR长度、外显子数量以及编码序列长度等。这表明模型在无监督训练中已经学习到了重要的结构信息。

进一步在多个任务上进行比较,Orthrus在mRNA半衰期、核糖体负载、RNA定位及蛋白功能预测等任务中均优于其他自监督模型,甚至在部分任务上达到或超过监督模型水平。

图2:RNA属性预测性能与模型比较。

少样本学习能力显著提升

在数据稀缺场景下,Orthrus展现出显著优势。当训练样本减少至几百甚至几十个时,传统监督模型性能大幅下降,而Orthrus仍能保持较高预测准确性。

例如,在mRNA半衰期预测任务中,仅使用极少数据即可接近完整数据训练的性能,表明该模型具备强大的迁移能力和数据效率。

模型设计的关键因素分析

通过系统消融实验,研究人员发现对比学习目标在整体性能中起决定性作用,相比传统掩码建模方法具有明显优势。同时,引入进化同源数据和剪接数据均能显著提升性能。

在模型结构方面,Mamba架构优于传统卷积网络和其他基线模型,显示出更强的序列建模能力。这些结果共同说明:生物学先验 + 对比学习是性能提升的关键因素。

图3:模型消融实验与设计分析。

潜在空间捕捉功能相似性

研究人员进一步分析模型嵌入空间,发现同一基因的不同转录本通常具有较高相似性,而不同基因的转录本则明显分离。此外,具有相同功能类别的基因之间也表现出中等相似性。

更重要的是,模型学习到的相似性与蛋白结构域重叠高度相关,说明其能够捕捉真实的功能信息,而不仅仅是序列相似性。

图4:嵌入空间与功能相似性分析。

捕捉转录本功能多样性

Orthrus能够区分同一基因不同剪接异构体的功能差异。例如,在BCL2L1基因中,不同转录本分别对应促凋亡与抗凋亡功能,模型能够自动将其划分为不同簇。

在另一个例子中,不同OAS1转录本因细胞定位不同而具有不同抗病毒功能,模型同样能够识别这种差异。

这些结果表明,Orthrus不仅能捕捉相似性,还能识别功能分化。

图5:剪接异构体功能聚类。

讨论

本研究提出的Orthrus模型,通过引入进化与剪接机制,将RNA表示学习从“序列重建”转向“功能对齐”,提供了一种更符合生物学本质的基础模型范式。

相比传统方法,该模型能够在无需大量标注数据的情况下学习高质量表示,并在多种任务中实现优异表现,尤其在低数据场景下具有显著优势。

研究人员认为,对比学习能够有效识别功能保守区域,并将其从序列变异中分离出来,从而提升模型对功能的理解能力。这一机制使得模型能够预测复杂性质,如mRNA稳定性与翻译效率。

尽管如此,该方法仍存在一定局限,例如在强化相似性时可能掩盖部分细微差异。但实验结果表明,模型仍能够识别关键功能变化,说明其在表达共享信息与特异性之间取得了良好平衡。

总体来看,Orthrus为RNA基础模型的发展提供了新的方向,有望在功能注释、疾病机制解析以及RNA设计等领域发挥重要作用。

整理 | DrugOne团队

参考资料

Fradkin, P., Shi, R.“., Dalal, T. et al. Orthrus: toward evolutionary and functional RNA foundation models. Nat Methods (2026).

https://doi.org/10.1038/s41592-026-03064-3

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugOne 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档