Nat. Biotechnol. | 解读单细胞基础模型: 为基因重要性打分

DrugAI

发布于 2026-06-01 16:46:53

1340

DRUGONE

在单细胞转录组研究中，基因的高表达并不一定意味着其在细胞功能中真正重要。例如，许多关键转录因子表达量较低，而核糖体或线粒体基因虽然高度表达，却未必决定细胞身份。研究人员提出了 SIGnature（Scoring the Importance of Genes）框架，通过解释单细胞基础模型（single-cell foundation model）的 attribution 信号，对基因在特定细胞中的“功能重要性”进行量化评分。

SIGnature 利用可解释人工智能（XAI）中的 attribution 方法，将每个基因对单细胞基础模型 latent embedding 的贡献量化，从而得到更加鲁棒、跨数据集可比较的基因重要性分数。研究人员进一步开发了 SIGnature 软件包，用于大规模单细胞图谱中的快速 signature 查询。

研究人员利用该框架分析了严重 COVID-19 与脓毒症相关的 MS1 单核细胞程序，并在超过400项单细胞研究中发现其与 Kawasaki disease（KD）、HLH 和 SFTS 等高炎症疾病存在关联。进一步实验验证表明，KD 患者血清能够诱导 MS1 表型形成。研究结果说明，SIGnature 不仅能够提升单细胞 signature scoring 的鲁棒性，还能够揭示不同疾病之间共享的免疫机制。

长期以来，研究人员通常通过基因表达量来判断某个基因在细胞中的重要性。然而，绝对表达量并不能真实反映基因功能。例如，转录因子往往低表达，却对细胞命运至关重要；而 MALAT1、核糖体蛋白和线粒体基因则常因技术原因高表达。

因此，单细胞分析通常依赖 differential expression、GSEA、GSVA、Seurat 或 Scanpy 等方法，通过相对表达变化推断功能重要性。然而，这些方法普遍存在一个核心问题：不同实验之间存在强烈 batch effect、测序深度差异与细胞组成差异，使得跨研究比较极其困难。

与此同时，单细胞 foundation model 正在迅速发展。这类模型通过海量单细胞数据预训练，能够学习具有生物学意义的 latent representation。然而，这些模型通常被视为“黑箱”，研究人员很难知道模型究竟认为哪些基因最重要。

研究人员因此提出，能否利用 explainable AI 中的 attribution 方法，将 foundation model 的 latent embedding 解释为“基因功能重要性”？如果 foundation model 学到了真实生物规律，那么 attribution 高的基因就应该对应决定细胞身份与功能的关键调控基因。

方法

研究人员构建了 SIGnature 框架，用于基于 foundation model attribution 计算单细胞基因重要性。首先，研究人员选择多个主流单细胞 foundation model，包括 scFoundation、scGPT、SCimilarity、scTab 和 scVI 等。模型需要满足两个条件：输入固定基因集合，并输出具有生物学意义的细胞 embedding。

随后，研究人员采用 explainable AI 中常见的 attribution 方法，包括 Integrated Gradients（IG）、Input × Gradient（IxG）与 DeepLIFT（DL），计算每个基因对 latent embedding 的贡献值。为了适配多维 embedding，研究人员在模型末端加入 summation layer，使 embedding 能够映射为 attribution vector。

研究人员进一步在多个单细胞数据集上进行 benchmark，对 attribution 的运行速度、抗技术噪声能力、marker gene 富集能力以及跨研究鲁棒性进行系统评估。最终，研究人员主要使用 SCimilarity + Integrated Gradients 作为后续分析组合。

图1：SIGnature 框架概念图与 attribution 在单细胞基础模型中的作用机制。

结果

Attribution 能够量化单细胞中的“基因重要性”

研究人员首先验证 attribution 是否真的能够反映生物学功能。结果显示，在 B 细胞中，attribution 最高的基因包括 BANK1、CD79A 与 MS4A1，这些均是经典 B 细胞 marker。相比之下，表达量最高的基因则主要是 MALAT1、MT-CO1 和 RPS27 等技术相关高表达基因。

类似趋势在多种肺细胞类型中均成立。研究人员发现，相比 expression ranking，attribution ranking 能够显著提高 marker gene 与转录因子在细胞中的排序。

在 CD4+ T 细胞分析中，研究人员进一步观察到：

GATA3 在 Th2 中 attribution 更高；
RORC 在 Th17 中 attribution 更高；
FOXP3 在 Treg 中 attribution 更高。

这说明 attribution 更接近“功能调控重要性”，而非简单表达量。

图2：Attribution 与传统表达量在 marker gene 和转录因子识别中的对比。

Attribution 显著降低技术噪声影响

研究人员随后分析 attribution 对技术 artifact 的鲁棒性。结果显示，相比 expression，marker gene attribution 与 UMI counts、检测到的基因数等 sequencing depth 指标相关性明显更低。

例如，在 nonclassical monocyte 中：

expression 与测序深度相关性高达 ρ=0.71；
attribution 相关性仅为 ρ=-0.12。

研究人员进一步模拟 dropout，随机移除50%的 counts。结果显示 attribution 排名前列基因依然保持93%的重叠率，说明其对数据缺失具有较强鲁棒性。

此外，不同 foundation model benchmark 结果显示，attribution 在所有模型中均能有效降低核糖体基因的重要性，同时增强 mitotic genes 与 cell type markers 的信号。

图3：不同 foundation model attribution 的 benchmark 与抗技术噪声能力分析。

Attribution支持跨研究gene program发现

研究人员随后测试 attribution 是否能够支持跨数据集 gene program discovery。研究人员将多个 T 细胞数据集拼接后，对 attribution matrix 进行 NMF 分解。

结果显示，研究人员成功恢复多个具有明确生物学意义的 gene programs，包括：

CD8+ T cell factor；
cytokine response factor；
Treg-associated factor。

其中，Treg factor 富集了 FOXP3 与 IL2RA 等经典调控基因，并且能够推广到16种组织中的 Treg 细胞。

相比 expression-based NMF：

attribution-based NMF 更稳定；
更少受 study-specific effect 干扰；
更容易恢复 biologically meaningful factors。

研究人员进一步指出，attribution-based 方法甚至能够达到接近 supervised scETM 的效果，但无需重新训练模型。

图4：基于 attribution 的跨研究 NMF gene program 分析。

Attribution 显著提升 signature scoring 能力

研究人员随后将 attribution 用于 gene signature scoring。研究人员发现，对 signature 中所有基因 attribution 求平均，可以有效衡量该 signature 在单细胞中的激活程度。

在 PBMC 数据集中：

B cell signature 在 B cell 中最高；
NK signature 在 NK 中最高；
CD8 T signature 在 CD8 T 中最高。

研究人员进一步与 Scanpy、UCell、JASMINE 和 ANS 等方法比较。结果显示：

Mean attribution 在32项测试中赢得23项；
同时在 supervised 与 unsupervised 任务中表现最佳。

更重要的是，attribution-based scoring 在跨研究分析中表现出极强鲁棒性。例如，Scanpy 会错误地给某些 CD4 T 细胞打出比真实 CD8 T 更高的 CD8 signature score，而 attribution 不会出现这一问题。

研究人员进一步在120万细胞、15个实验中验证了该结论。

图5：Attribution-based signature scoring 与传统方法的系统比较。

SIGnature 在2200万细胞中发现共享炎症状态

研究人员随后展示 SIGnature 的真正大规模应用能力。由于 attribution 可以预计算，因此研究人员能够在22 million cells 中快速搜索 gene signature。

研究人员选择了严重 COVID-19 与脓毒症中的 MS1 monocyte signature，并在412个疾病研究中进行搜索。结果不仅重新发现了：

septic shock；
severe COVID-19；

还进一步发现其与：

Kawasaki disease（KD）；
severe fever with thrombocytopenia syndrome（SFTS）；
hemophagocytic lymphohistiocytosis（HLH）相关。

在 KD 数据中，MS1-like cells 在 IVIG 治疗后显著下降。

研究人员进一步通过实验验证发现：

KD 患者血清能够诱导 emergency myelopoiesis；
并增加 HLA-DRlow MS1-like monocyte 比例。

这一结果说明，SIGnature 不仅能做 signature scoring，还能够发现此前未知的疾病关联机制。

讨论

研究人员提出的 SIGnature 框架，首次将 explainable AI attribution 系统引入单细胞 foundation model 解释中，并建立了一种统一、可扩展的“基因重要性评分体系”。

相比传统 expression-based 方法，attribution 更关注真正驱动 latent embedding 的关键基因，因此能够增强转录因子和 marker gene 信号，同时降低测序深度与技术 artifact 的影响。研究结果表明，attribution-based representation 不仅能够改善跨研究 gene program discovery，还能够在超大规模 atlas 中实现分钟级 signature querying，从而发现不同疾病之间共享的免疫状态。

研究人员认为，这类“可解释 foundation model”未来可能成为单细胞分析的重要基础设施，使 AI 不再只是预测工具，而是真正能够帮助研究人员理解细胞调控机制。

整理 | DrugOne团队

参考资料

Gold, M.P., Reyes, M., Diamant, N. et al. Scoring gene importance by interpreting single-cell foundation models. Nat Biotechnol (2026).

https://doi.org/10.1038/s41587-026-03112-5

内容为【DrugOne】公众号原创｜转载请注明来源

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-29，如有侵权请联系 cloudcommunity@tencent.com 删除

数据