用机器学习发现和设计抗菌肽：一篇博士论文的解读

MindDance

发布于 2026-06-05 20:08:56

深度解读 UBC 博士论文《机器学习用于抗菌肽的发现与设计》题目：Machine Learning for Antimicrobial Peptide Discovery and Design, 2024 作者：Chenkai Li ｜导师：Inanç Birol 教授

一、一个正在逼近的后抗生素时代

抗生素曾经是现代医学最大的底气之一。但今天，这份底气正在被一点点抽走。

细菌并不会乖乖待在原地等着被杀死。它们通过基因突变、互相交换耐药基因，一代代进化出对抗药物的本领。世界卫生组织对此忧心忡忡，专门发布了一份重点病原体清单——列出那些急需新药对付的细菌，其中 3 种被列为危急级，6 种高危级，3 种中危级。

更糟的是供给端。论文一开篇就点出一个残酷现实：从上世纪 90 年代起，新抗菌药物的发现速度大幅下滑，而耐药性的出现却在不断攀升。 一边是越来越能打的超级细菌，一边是越来越枯竭的弹药库，这道剪刀差正是悬在公共卫生头顶的一把利剑。

所谓多重耐药菌（MDR），指的是对三类或更多类抗菌药物中至少各一种都产生了抗性的细菌。当一种感染连最后一道防线的药物都压不住时，一台普通手术、一次小小的外伤，都可能重新变成致命的。

人类需要新的武器。而这篇博士论文，讲的正是如何用机器学习，去高效地寻找和设计一类被寄予厚望的新武器——抗菌肽。

二、抗菌肽，免疫系统里的古老卫士

抗菌肽（Antimicrobial Peptides，简称 AMP） 是一类短小的生物分子，通常只有 10 到 50 个氨基酸长，大多带正电荷（阳离子），并且常常是两亲性的——也就是说，它们的分子结构里，亲水的部分和疏水的部分各占一面。

它们并不是什么新发明。事实上，从细菌到植物、昆虫，再到我们人类，几乎所有生命形式都把抗菌肽作为先天免疫的一部分，这是一套被进化反复打磨过的古老防御系统。

它最迷人的地方，在于杀菌的方式。

大多数传统抗生素都有一个明确的靶点——某个特定的蛋白质或某条特定的代谢通路。细菌只要在这个靶点上发生一点突变，药物往往就失效了。而许多抗菌肽走的是另一条路：它们带的正电荷，会被细菌表面那层带负电的膜吸引、贴附上去；当浓度积累到一定程度，它们便直接穿透细菌的膜，打出一个个孔洞，以一种非酶促的方式把细菌撕开。

打个比方：传统抗生素像是一把要插进特定锁孔的钥匙，锁芯一换就开不了门；而很多抗菌肽更像是直接把整面墙凿穿——细菌想靠换把锁来防御，要难得多。这种独特机制，正是抗菌肽被认为更难被细菌产生耐药的根本原因。

当然，论文也指出：如果细菌长期暴露在抗菌肽下，耐药性依然可能出现，连救命的最后一招多黏菌素（colistin）都已经观察到耐药。所以这不是一劳永逸的银弹，而是一条需要持续补充弹药的赛道。

那么，抗菌肽都从哪里来？ 论文引用抗菌肽数据库 APD3（截至 2023 年 1 月）的统计给出了答案：在全部 3,569 条记录里，两栖动物是最大的天然来源，贡献了 1,196 条（占 33.51%），而其中高达 93.39% 来自青蛙。其后依次是细菌、植物、昆虫和哺乳动物。

为什么是青蛙？因为青蛙的皮肤又薄又透——这让它能呼吸、能散热，却也让它格外容易受伤；再加上它们常年生活在潮湿、泥泞、病原体密布的环境里。为了在这样的险境中活下来，蛙皮进化出了一整套丰富的抗菌肽武器库。这个细节，后面会成为本研究的一个关键宝藏点。

三、两道难题，两件武器

寻找新抗菌肽，本质上有两条路，也对应着两道技术难题：

第一条路：发现。 大自然里、各种基因组和蛋白质数据库里，可能藏着大量我们还没认出来的天然抗菌肽。但直接进实验室做湿法筛选既慢又贵，海量的候选序列需要一种又快又准的方法来过筛。这在机器学习里，属于序列分类问题——给一段氨基酸序列，判断它是不是抗菌肽。

第二条路：设计。 20 种氨基酸的排列组合是天文数字级别的，这意味着有海量自然界里根本不存在、但同样能杀菌的全新肽等着我们去创造。可传统的人工设计高度依赖专家经验，产量上不去。这在机器学习里，属于序列生成问题——让模型无中生有地写出一段全新的、可能有效的抗菌肽序列。

这篇论文的两个核心目标，正好一一对应：

发现 → 工具 AMPlify（序列分类 / 预测）
设计 → 工具 AMPd-Up（序列生成）

更妙的是，作者把它们都拿去做了真刀真枪的体外实验验证——不是停留在模型说它行，而是合成出来、丢进培养皿，看它到底能不能杀死真实的细菌。

下面，我们一件一件来看。

四、AMPlify —— 教 AI 读懂哪段序列是抗菌肽

4.1 它的超能力：会划重点的深度学习模型

AMPlify 是一个基于深度学习的抗菌肽预测工具。它最大的创新点，在于把注意力机制 引入了抗菌肽预测——据作者所知，这是首个将注意力机制用于抗菌肽预测的机器学习应用。

什么是注意力机制？灵感其实来自我们人类阅读时的本能：看一句话，我们会下意识地把目光聚焦在那几个关键词上，而不是平均地对待每个字。AMPlify 做的就是类似的事——给序列里不同位置赋予不同的权重，放大真正重要的信息，抑制无关的部分。

具体来说，它的模型像一条流水线：

先用一层 双向 LSTM，像逐字读句子那样，把序列的前后位置信息编码进来；
再用一层多头缩放点积注意力（MHSDPA），用多组权重视角重新提炼这段序列的表示——相当于从多个角度同时标出重点；
最后用一层上下文注意力（CA），把前面学到的信息浓缩成一个总结向量，做出最终判断。

不止如此，作者还用了一个挺巧妙的集成学习思路：把训练集切成 5 份，训练出 5 个子模型，再把它们的判断综合起来。论文的消融实验证明，正是这些注意力层和集成策略，让模型的表现一步步提升——而且这种提升在统计上是显著的（配对 t 检验 p < 0.05）。

4.2 它有多强？和前辈们的同台比试

作者把 AMPlify 和当时几个主流工具（iAMP-2L、iAMPpred，以及同为深度学习的 AMP Scanner Vr.2）放在同一个平衡测试集上正面比拼，结果如下：

工具	准确率	灵敏度	特异度	F1	AUROC
iAMPpred	74.01%	87.90%	60.12%	77.18%	80.70%
iAMP-2L	77.96%	88.26%	67.66%	80.02%	—
AMP Scanner Vr.2（原版）	78.50%	90.66%	66.35%	80.83%	88.33%
AMPlify（均衡+集成）	93.71%	92.93%	94.49%	93.66%	98.37%

简单解释几个指标：灵敏度高，意味着真抗菌肽更少被漏掉；特异度高，意味着假阳性更少被误判；AUROC 越接近 100% 越好。AMPlify 几乎在所有指标上都全面领先，而且能同时压低漏报和误报——这对后续昂贵的实验筛选至关重要。

而且作者还做了一件很硬核的事：把测试集按与训练集的相似度分层来看。结果发现，无论相似度阈值怎么设，AMPlify 的 F1 分数都最高。这说明它学到的不只是长得像不像见过的序列，而是抓住了更深层的、关于抗菌肽的高阶特征。

4.3 实战一：潜入牛蛙基因组挖宝

光跑分还不够。作者把 AMPlify 嵌进一条完整的生物信息学流程，去挖掘前面提到的那座宝藏——北美牛蛙（Rana [Lithobates] catesbeiana）的基因组。

流程是这样的：先用同源搜索和基因组注释工具，从基因组里找出可能的抗菌肽前体序列，再切出成熟肽段，交给 AMPlify 打分。最终，从 101 条候选成熟序列中，有 75 条被预测为抗菌肽；挑出 11 条去做体外实验，其中 4 条展现出真实的抗菌活性，被命名为 RaCa-1、RaCa-2、RaCa-3、RaCa-7。

测试用的靶子是一组对标 WHO 重点病原体的细菌，包括金黄色葡萄球菌、化脓性链球菌、铜绿假单胞菌，以及多株大肠杆菌——其中还有一株产碳青霉烯酶的多重耐药（MDR / CPO-NDM）大肠杆菌临床分离株，这正是最棘手的那类超级细菌。

表现最亮眼的是 RaCa-2：它对金黄色葡萄球菌的最低抑菌浓度（MIC）低至 2–4 µg/mL，对多株大肠杆菌也在 4–16 µg/mL 区间，是唯一对革兰氏阳性和阴性菌都能强力杀灭的一条。（MIC 越低，代表越少的药量就能压住细菌，也就越猛。）

但论文里最值得玩味的，是这样一个观察：当把 MDR 耐药菌株和普通敏感菌株做对比时，RaCa-2 和 RaCa-3 的 MIC 几乎没有变化。 换句话说，细菌身上那些专门对付传统抗生素的耐药机制，对这些抗菌肽不起作用。这从实验层面印证了前面那个核心论点：抗菌肽的杀菌机制，和传统抗生素根本不是一回事。

这部分工作已发表于 BMC Genomics（2022）

4.4 实战二：扫荡蛋白质数据库，挖出 8000 条新肽——以及一个意外发现

如果说牛蛙基因组是一座矿山，那 UniProtKB/Swiss-Prot 这样的综合蛋白质数据库，就是一片浩瀚的大陆。这里的序列绝大多数都不是抗菌肽，要从大海里捞针，光有高灵敏度还不够——你更怕误报太多，把成千上万条假阳性丢进实验室，烧钱又烧时间。

为此，作者又训练了一个非均衡模型：它专门为这种非抗菌肽远远多于抗菌肽的场景优化，在非均衡测试集上特异度高达 99.09%。然后用非均衡加均衡两个模型做两级过滤：先粗筛，再精筛，只保留两个模型都判定为抗菌肽的序列，把假阳性压到极低。

把这套流程扫过 Swiss-Prot 里全部真核生物序列后，结果相当惊人：

共预测出 10,720 条抗菌肽，其中 8,008 条（74.70%）是全新的、从未被记录过的候选抗菌肽；
这些新肽与已知抗菌肽的平均序列相似度只有 32.71%——新颖度极高；
作者把这 8,008 条全部公开放进了 Zenodo 仓库，等于给整个学界递上了一份待验证候选清单。

但真正让人会心一笑的，是接下来的体外验证。作者挑了 38 条候选肽合成、测试，13 条显示出抗菌活性。而当你顺着这些有效肽回溯它们原本所在的来源蛋白时，会发现一件很反直觉的事——这些抗菌肽，常常藏在和免疫八竿子打不着的蛋白质里：

肽编号	来源蛋白	物种	抗大肠杆菌 MIC
PlVi1（全场最强）	RxLR 效应蛋白（用来抑制宿主细胞死亡）	葡萄霜霉病卵菌	4–8 µg/mL
HoSa1	嗅觉受体	人	16 µg/mL（且抗金葡菌）
DiDi2	跨膜蛋白	社会性变形虫	16 µg/mL
DaRe1	GTP 结合蛋白	斑马鱼	32–64 µg/mL
GoGo1	转录抑制因子	大猩猩等灵长类	64 µg/mL
UnBi1	神经毒素	海螺	128 µg/mL

你没看错——一段来自人类嗅觉受体的肽、一段来自斑马鱼GTP 结合蛋白的肽、甚至一段来自海螺神经毒素的肽，都能杀菌。这传递出一个迷人的信息：潜在的抗菌肽，可能广泛隐身在各种我们从未关注过的蛋白质序列内部，只是从未被人识别出来。AI 在这里扮演的，正是那个能在浩如烟海的序列中嗅出隐藏宝藏的角色。

更让人安心的是，这些被验证的新肽里，绝大多数对（猪）红细胞没有溶血毒性（HC50 > 128 µg/mL）——这意味着它们在杀菌的同时，对宿主细胞相对友好，这是迈向药用的一个重要前提。

这部分前半段已发表于 BMC Research Notes（2023），后半段为待投稿手稿。AMPlify 已作为开源工具发布。

五、AMPd-Up —— 让 AI 无中生有地设计全新抗菌肽

发现天然抗菌肽固然好，但它受限于来源：你得有组织样本去筛，或者有测序数据去挖。而设计自然界里压根不存在的合成肽，则打开了另一扇大门。

5.1 像写诗一样写出一段蛋白质

AMPd-Up 用的是一个循环神经网络（RNN）语言模型。

这里有个很美的类比：如果说人类语言由字母拼成单词，那蛋白质语言就由 20 种氨基酸拼成肽链。语言模型能学会下一个字母最可能是什么，AMPd-Up 学的则是抗菌肽序列的语法——氨基酸的排布规律。它从肽链的 N 端开始，一个残基一个残基地往下写，每一步都根据已经写出的部分，估计下一个氨基酸最可能是谁，直到写出结束符为止。

为了不让模型陷入只会写一种套路，作者用了一个聪明的设计：用不同的随机初始化，训练出许多个模型实例。 由于神经网络的损失函数通常是非凸的，不同的起点会收敛到略微不同的模型，于是每个实例都会从稍稍不同的角度去理解抗菌肽，从而探索序列空间里不同的角落。它的训练集是来自 APD3 的 2,253 条去冗余抗菌序列。

作者还定义了一个 AMPd-Up 分数，用来衡量模型对自己生成的这条序列有多大把握。

5.2 它生成的肽，质量如何？

由于一条一条做实验太贵，作者先用 3 个独立的抗菌肽预测工具（AMPlify、AMP Scanner Vr.2、iAMPpred）来代为评估生成质量——看一批生成序列里，有多大比例被判定为真抗菌肽。和另外三种主流生成方法（LSTM 语言模型、AMPGAN v2、HydrAMP）相比：

生成方法	按 AMPlify 评	按 AMP Scanner 评	按 iAMPpred 评
AMPd-Up	95.50%	100.00%	99.30%
LSTM 语言模型	84.85%	84.20%	82.80%
AMPGAN v2	90.90%	87.55%	94.85%
HydrAMP	87.50%	94.60%	97.70%

无论用哪个工具来评，AMPd-Up 都拿了第一。 有意思的是，它的模型结构其实比不少竞争对手都更简单——作者借此说明：简单的模型只要训练得当，一样能打。

更关键的是原创性。AMPd-Up 生成的序列，与训练集的平均相似度只有约 49.97%，与所有已知抗菌肽的平均相似度约 51.03%。这说明模型不是在死记硬背（否则会生成和训练集高度雷同的序列），而是真正学到了抗菌肽的高阶特征，在创造全新的东西。作者还观察到，不同模型实例之间生成序列的相似度（33.56%），比同一实例内部（39.14%）还要低——这恰好印证了多实例从不同角度探索的设计意图。

5.3 40 条全新合成肽，以及一个关于未知领域的提示

最后是验证。作者从 1,000 个模型实例里挑出 58 条候选肽去做体外实验，结果 40 条对大肠杆菌和/或金黄色葡萄球菌展现出抗菌活性。其中 DeNo1018 最猛，对大肠杆菌的 MIC 低至 1–2 µg/mL；而 DeNo1007 则做到了对两种菌都高效杀灭、同时不溶血的理想组合。

这里还藏着一个对未来很有启发的观察：作者把生成肽按与已知抗菌肽的相似度分组，发现相似度较低的那些区间（40%–50%），活性比例反而很高（达 81.25%）；超过六成的有效肽都落在 40%–60% 这个相似度区间里。这强烈暗示：在那片和已知抗菌肽不太像的广阔序列空间里，还有大量等待挖掘的新药。

（作者顺带还窥探了一下 AI 学到了什么：在 2 万条生成序列里，LLKK 和 LKKL 是出现最频繁的四联体模体——这恰好是构建两亲性 α-螺旋肽的经典积木。AI 在不被告知的情况下，自己领悟到了抗菌肽的结构规律。）

为什么合成肽特别有价值？ 论文给出了一个直击要害的论点：既然这些肽在自然界中根本不存在，那么大多数微生物也就来不及、或没有现成的手段去对它们进化出耐药性。这让合成抗菌肽不仅是传统抗生素的替代品，也是天然抗菌肽之外的又一道防线。

这部分工作已投稿同行评审。AMPd-Up 同样作为开源工具发布。

六、这篇论文到底交付了什么？

把两条线收拢到一起，这篇博士论文的成果可以浓缩成几句话：

一套双管齐下的策略：既从天然来源（基因组、蛋白质数据库）发现抗菌肽，又从头设计自然界不存在的合成抗菌肽——两条腿走路，最大化候选药物的数量与多样性，为后续严苛的临床筛选留足空间。
两件开源工具：用于预测的 AMPlify，和用于生成的 AMPd-Up——两者在各自的赛道上都超越了当时的最先进方法。
57 条经实验验证的全新抗菌肽：其中 4 条来自牛蛙基因组，13 条来自 Swiss-Prot 数据库，40 条由 AI 从头设计。

它最大的意义，或许不在于某一条具体的肽，而在于证明了一种范式是可行的：机器学习能够真正加速抗菌肽这类药物的发现与设计，把大海捞针变成按图索骥。在新抗生素研发停滞、耐药菌步步紧逼的当下，这是一件分量很重的事。

七、这远不是终点

作者在文末表现得相当清醒，坦诚地列出了几道仍未跨过的坎，这也是这篇论文值得尊敬的地方：

第一，训练数据太小。 相比计算机视觉、自然语言处理动辄数十万乃至上百万的样本，经实验验证的抗菌肽数量实在有限（AMPd-Up 的训练集只有 2,253 条）。这是所有抗菌肽 AI 工具共同面临的瓶颈。好消息是，随着 AMPlify、AMPd-Up 这类高通量工具不断产出新候选，这个数据库本身也会越来越大——形成一个良性循环。

第二，模型还需要更多困难样本。 当前领域里缺少那种序列高度相似、活性却完全不同的样本（即长得像抗菌肽的非抗菌肽），这让模型对序列里的细微改动不够敏感。喂给它更多这样的困难样本，有望进一步提升精度。

第三，可解释性值得深挖。 注意力机制产生的权重，把机器学到的模式以一种直观方式呈现了出来——但这些权重到底有没有生物学含义？它们会不会反过来帮助我们理解抗菌肽至今未明的作用机制？这是一片诱人的处女地。

第四，迈向临床还有很长的路。 作者设想了未来可以同时预测肽的毒性和抗菌强度（理想的药物应当高效低毒），也提到当前的体外实验只覆盖了有限的几种细菌，需要在更广的微生物谱、更深的机制层面继续验证。

论文的最后一句话，朴素却动人。作者写道，他期待这些被发现或设计出来的抗菌肽，能在不太遥远的将来，从多重耐药菌的感染中拯救更多生命。