
DRUGONE
在单细胞转录组研究中,基因的高表达并不一定意味着其在细胞功能中真正重要。例如,许多关键转录因子表达量较低,而核糖体或线粒体基因虽然高度表达,却未必决定细胞身份。研究人员提出了 SIGnature(Scoring the Importance of Genes)框架,通过解释单细胞基础模型(single-cell foundation model)的 attribution 信号,对基因在特定细胞中的“功能重要性”进行量化评分。
SIGnature 利用可解释人工智能(XAI)中的 attribution 方法,将每个基因对单细胞基础模型 latent embedding 的贡献量化,从而得到更加鲁棒、跨数据集可比较的基因重要性分数。研究人员进一步开发了 SIGnature 软件包,用于大规模单细胞图谱中的快速 signature 查询。
研究人员利用该框架分析了严重 COVID-19 与脓毒症相关的 MS1 单核细胞程序,并在超过400项单细胞研究中发现其与 Kawasaki disease(KD)、HLH 和 SFTS 等高炎症疾病存在关联。进一步实验验证表明,KD 患者血清能够诱导 MS1 表型形成。研究结果说明,SIGnature 不仅能够提升单细胞 signature scoring 的鲁棒性,还能够揭示不同疾病之间共享的免疫机制。

长期以来,研究人员通常通过基因表达量来判断某个基因在细胞中的重要性。然而,绝对表达量并不能真实反映基因功能。例如,转录因子往往低表达,却对细胞命运至关重要;而 MALAT1、核糖体蛋白和线粒体基因则常因技术原因高表达。
因此,单细胞分析通常依赖 differential expression、GSEA、GSVA、Seurat 或 Scanpy 等方法,通过相对表达变化推断功能重要性。然而,这些方法普遍存在一个核心问题:不同实验之间存在强烈 batch effect、测序深度差异与细胞组成差异,使得跨研究比较极其困难。
与此同时,单细胞 foundation model 正在迅速发展。这类模型通过海量单细胞数据预训练,能够学习具有生物学意义的 latent representation。然而,这些模型通常被视为“黑箱”,研究人员很难知道模型究竟认为哪些基因最重要。
研究人员因此提出,能否利用 explainable AI 中的 attribution 方法,将 foundation model 的 latent embedding 解释为“基因功能重要性”?如果 foundation model 学到了真实生物规律,那么 attribution 高的基因就应该对应决定细胞身份与功能的关键调控基因。
方法
研究人员构建了 SIGnature 框架,用于基于 foundation model attribution 计算单细胞基因重要性。首先,研究人员选择多个主流单细胞 foundation model,包括 scFoundation、scGPT、SCimilarity、scTab 和 scVI 等。模型需要满足两个条件:输入固定基因集合,并输出具有生物学意义的细胞 embedding。
随后,研究人员采用 explainable AI 中常见的 attribution 方法,包括 Integrated Gradients(IG)、Input × Gradient(IxG)与 DeepLIFT(DL),计算每个基因对 latent embedding 的贡献值。为了适配多维 embedding,研究人员在模型末端加入 summation layer,使 embedding 能够映射为 attribution vector。
研究人员进一步在多个单细胞数据集上进行 benchmark,对 attribution 的运行速度、抗技术噪声能力、marker gene 富集能力以及跨研究鲁棒性进行系统评估。最终,研究人员主要使用 SCimilarity + Integrated Gradients 作为后续分析组合。

图1:SIGnature 框架概念图与 attribution 在单细胞基础模型中的作用机制。
结果
Attribution 能够量化单细胞中的“基因重要性”
研究人员首先验证 attribution 是否真的能够反映生物学功能。结果显示,在 B 细胞中,attribution 最高的基因包括 BANK1、CD79A 与 MS4A1,这些均是经典 B 细胞 marker。相比之下,表达量最高的基因则主要是 MALAT1、MT-CO1 和 RPS27 等技术相关高表达基因。
类似趋势在多种肺细胞类型中均成立。研究人员发现,相比 expression ranking,attribution ranking 能够显著提高 marker gene 与转录因子在细胞中的排序。
在 CD4+ T 细胞分析中,研究人员进一步观察到:
这说明 attribution 更接近“功能调控重要性”,而非简单表达量。

图2:Attribution 与传统表达量在 marker gene 和转录因子识别中的对比。
Attribution 显著降低技术噪声影响
研究人员随后分析 attribution 对技术 artifact 的鲁棒性。结果显示,相比 expression,marker gene attribution 与 UMI counts、检测到的基因数等 sequencing depth 指标相关性明显更低。
例如,在 nonclassical monocyte 中:
研究人员进一步模拟 dropout,随机移除50%的 counts。结果显示 attribution 排名前列基因依然保持93%的重叠率,说明其对数据缺失具有较强鲁棒性。
此外,不同 foundation model benchmark 结果显示,attribution 在所有模型中均能有效降低核糖体基因的重要性,同时增强 mitotic genes 与 cell type markers 的信号。

图3:不同 foundation model attribution 的 benchmark 与抗技术噪声能力分析。
Attribution支持跨研究gene program发现
研究人员随后测试 attribution 是否能够支持跨数据集 gene program discovery。研究人员将多个 T 细胞数据集拼接后,对 attribution matrix 进行 NMF 分解。
结果显示,研究人员成功恢复多个具有明确生物学意义的 gene programs,包括:
其中,Treg factor 富集了 FOXP3 与 IL2RA 等经典调控基因,并且能够推广到16种组织中的 Treg 细胞。
相比 expression-based NMF:
研究人员进一步指出,attribution-based 方法甚至能够达到接近 supervised scETM 的效果,但无需重新训练模型。

图4:基于 attribution 的跨研究 NMF gene program 分析。
Attribution 显著提升 signature scoring 能力
研究人员随后将 attribution 用于 gene signature scoring。研究人员发现,对 signature 中所有基因 attribution 求平均,可以有效衡量该 signature 在单细胞中的激活程度。
在 PBMC 数据集中:
研究人员进一步与 Scanpy、UCell、JASMINE 和 ANS 等方法比较。结果显示:
更重要的是,attribution-based scoring 在跨研究分析中表现出极强鲁棒性。例如,Scanpy 会错误地给某些 CD4 T 细胞打出比真实 CD8 T 更高的 CD8 signature score,而 attribution 不会出现这一问题。
研究人员进一步在120万细胞、15个实验中验证了该结论。

图5:Attribution-based signature scoring 与传统方法的系统比较。
SIGnature 在2200万细胞中发现共享炎症状态
研究人员随后展示 SIGnature 的真正大规模应用能力。由于 attribution 可以预计算,因此研究人员能够在22 million cells 中快速搜索 gene signature。
研究人员选择了严重 COVID-19 与脓毒症中的 MS1 monocyte signature,并在412个疾病研究中进行搜索。结果不仅重新发现了:
还进一步发现其与:
在 KD 数据中,MS1-like cells 在 IVIG 治疗后显著下降。
研究人员进一步通过实验验证发现:
这一结果说明,SIGnature 不仅能做 signature scoring,还能够发现此前未知的疾病关联机制。
讨论
研究人员提出的 SIGnature 框架,首次将 explainable AI attribution 系统引入单细胞 foundation model 解释中,并建立了一种统一、可扩展的“基因重要性评分体系”。
相比传统 expression-based 方法,attribution 更关注真正驱动 latent embedding 的关键基因,因此能够增强转录因子和 marker gene 信号,同时降低测序深度与技术 artifact 的影响。研究结果表明,attribution-based representation 不仅能够改善跨研究 gene program discovery,还能够在超大规模 atlas 中实现分钟级 signature querying,从而发现不同疾病之间共享的免疫状态。
研究人员认为,这类“可解释 foundation model”未来可能成为单细胞分析的重要基础设施,使 AI 不再只是预测工具,而是真正能够帮助研究人员理解细胞调控机制。
整理 | DrugOne团队
参考资料
Gold, M.P., Reyes, M., Diamant, N. et al. Scoring gene importance by interpreting single-cell foundation models. Nat Biotechnol (2026).
https://doi.org/10.1038/s41587-026-03112-5
内容为【DrugOne】公众号原创|转载请注明来源