
深度解读 UBC 博士论文《机器学习用于抗菌肽的发现与设计》 题目:Machine Learning for Antimicrobial Peptide Discovery and Design, 2024 作者:Chenkai Li | 导师:Inanç Birol 教授

抗生素曾经是现代医学最大的底气之一。但今天,这份底气正在被一点点抽走。
细菌并不会乖乖待在原地等着被杀死。它们通过基因突变、互相交换耐药基因,一代代进化出对抗药物的本领。世界卫生组织对此忧心忡忡,专门发布了一份重点病原体清单——列出那些急需新药对付的细菌,其中 3 种被列为危急级,6 种高危级,3 种中危级。
更糟的是供给端。论文一开篇就点出一个残酷现实:从上世纪 90 年代起,新抗菌药物的发现速度大幅下滑,而耐药性的出现却在不断攀升。 一边是越来越能打的超级细菌,一边是越来越枯竭的弹药库,这道剪刀差正是悬在公共卫生头顶的一把利剑。
所谓多重耐药菌(MDR),指的是对三类或更多类抗菌药物中至少各一种都产生了抗性的细菌。当一种感染连最后一道防线的药物都压不住时,一台普通手术、一次小小的外伤,都可能重新变成致命的。
人类需要新的武器。而这篇博士论文,讲的正是如何用机器学习,去高效地寻找和设计一类被寄予厚望的新武器——抗菌肽。
抗菌肽(Antimicrobial Peptides,简称 AMP) 是一类短小的生物分子,通常只有 10 到 50 个氨基酸长,大多带正电荷(阳离子),并且常常是两亲性的——也就是说,它们的分子结构里,亲水的部分和疏水的部分各占一面。
它们并不是什么新发明。事实上,从细菌到植物、昆虫,再到我们人类,几乎所有生命形式都把抗菌肽作为先天免疫的一部分,这是一套被进化反复打磨过的古老防御系统。
它最迷人的地方,在于杀菌的方式。
大多数传统抗生素都有一个明确的靶点——某个特定的蛋白质或某条特定的代谢通路。细菌只要在这个靶点上发生一点突变,药物往往就失效了。而许多抗菌肽走的是另一条路:它们带的正电荷,会被细菌表面那层带负电的膜吸引、贴附上去;当浓度积累到一定程度,它们便直接穿透细菌的膜,打出一个个孔洞,以一种非酶促的方式把细菌撕开。
打个比方:传统抗生素像是一把要插进特定锁孔的钥匙,锁芯一换就开不了门;而很多抗菌肽更像是直接把整面墙凿穿——细菌想靠换把锁来防御,要难得多。这种独特机制,正是抗菌肽被认为更难被细菌产生耐药的根本原因。
当然,论文也指出:如果细菌长期暴露在抗菌肽下,耐药性依然可能出现,连救命的最后一招多黏菌素(colistin)都已经观察到耐药。所以这不是一劳永逸的银弹,而是一条需要持续补充弹药的赛道。
那么,抗菌肽都从哪里来? 论文引用抗菌肽数据库 APD3(截至 2023 年 1 月)的统计给出了答案:在全部 3,569 条记录里,两栖动物是最大的天然来源,贡献了 1,196 条(占 33.51%),而其中高达 93.39% 来自青蛙。其后依次是细菌、植物、昆虫和哺乳动物。
为什么是青蛙?因为青蛙的皮肤又薄又透——这让它能呼吸、能散热,却也让它格外容易受伤;再加上它们常年生活在潮湿、泥泞、病原体密布的环境里。为了在这样的险境中活下来,蛙皮进化出了一整套丰富的抗菌肽武器库。这个细节,后面会成为本研究的一个关键宝藏点。
寻找新抗菌肽,本质上有两条路,也对应着两道技术难题:
第一条路:发现。 大自然里、各种基因组和蛋白质数据库里,可能藏着大量我们还没认出来的天然抗菌肽。但直接进实验室做湿法筛选既慢又贵,海量的候选序列需要一种又快又准的方法来过筛。这在机器学习里,属于序列分类问题——给一段氨基酸序列,判断它是不是抗菌肽。
第二条路:设计。 20 种氨基酸的排列组合是天文数字级别的,这意味着有海量自然界里根本不存在、但同样能杀菌的全新肽等着我们去创造。可传统的人工设计高度依赖专家经验,产量上不去。这在机器学习里,属于序列生成问题——让模型无中生有地写出一段全新的、可能有效的抗菌肽序列。
这篇论文的两个核心目标,正好一一对应:
更妙的是,作者把它们都拿去做了真刀真枪的体外实验验证——不是停留在模型说它行,而是合成出来、丢进培养皿,看它到底能不能杀死真实的细菌。
下面,我们一件一件来看。
AMPlify 是一个基于深度学习的抗菌肽预测工具。它最大的创新点,在于把注意力机制 引入了抗菌肽预测——据作者所知,这是首个将注意力机制用于抗菌肽预测的机器学习应用。
什么是注意力机制?灵感其实来自我们人类阅读时的本能:看一句话,我们会下意识地把目光聚焦在那几个关键词上,而不是平均地对待每个字。AMPlify 做的就是类似的事——给序列里不同位置赋予不同的权重,放大真正重要的信息,抑制无关的部分。
具体来说,它的模型像一条流水线:
不止如此,作者还用了一个挺巧妙的集成学习思路:把训练集切成 5 份,训练出 5 个子模型,再把它们的判断综合起来。论文的消融实验证明,正是这些注意力层和集成策略,让模型的表现一步步提升——而且这种提升在统计上是显著的(配对 t 检验 p < 0.05)。
作者把 AMPlify 和当时几个主流工具(iAMP-2L、iAMPpred,以及同为深度学习的 AMP Scanner Vr.2)放在同一个平衡测试集上正面比拼,结果如下:
工具 | 准确率 | 灵敏度 | 特异度 | F1 | AUROC |
|---|---|---|---|---|---|
iAMPpred | 74.01% | 87.90% | 60.12% | 77.18% | 80.70% |
iAMP-2L | 77.96% | 88.26% | 67.66% | 80.02% | — |
AMP Scanner Vr.2(原版) | 78.50% | 90.66% | 66.35% | 80.83% | 88.33% |
AMPlify(均衡+集成) | 93.71% | 92.93% | 94.49% | 93.66% | 98.37% |
简单解释几个指标:灵敏度高,意味着真抗菌肽更少被漏掉;特异度高,意味着假阳性更少被误判;AUROC 越接近 100% 越好。AMPlify 几乎在所有指标上都全面领先,而且能同时压低漏报和误报——这对后续昂贵的实验筛选至关重要。
而且作者还做了一件很硬核的事:把测试集按与训练集的相似度分层来看。结果发现,无论相似度阈值怎么设,AMPlify 的 F1 分数都最高。这说明它学到的不只是长得像不像见过的序列,而是抓住了更深层的、关于抗菌肽的高阶特征。
光跑分还不够。作者把 AMPlify 嵌进一条完整的生物信息学流程,去挖掘前面提到的那座宝藏——北美牛蛙(Rana [Lithobates] catesbeiana)的基因组。
流程是这样的:先用同源搜索和基因组注释工具,从基因组里找出可能的抗菌肽前体序列,再切出成熟肽段,交给 AMPlify 打分。最终,从 101 条候选成熟序列中,有 75 条被预测为抗菌肽;挑出 11 条去做体外实验,其中 4 条展现出真实的抗菌活性,被命名为 RaCa-1、RaCa-2、RaCa-3、RaCa-7。
测试用的靶子是一组对标 WHO 重点病原体的细菌,包括金黄色葡萄球菌、化脓性链球菌、铜绿假单胞菌,以及多株大肠杆菌——其中还有一株产碳青霉烯酶的多重耐药(MDR / CPO-NDM)大肠杆菌临床分离株,这正是最棘手的那类超级细菌。
表现最亮眼的是 RaCa-2:它对金黄色葡萄球菌的最低抑菌浓度(MIC)低至 2–4 µg/mL,对多株大肠杆菌也在 4–16 µg/mL 区间,是唯一对革兰氏阳性和阴性菌都能强力杀灭的一条。(MIC 越低,代表越少的药量就能压住细菌,也就越猛。)
但论文里最值得玩味的,是这样一个观察:当把 MDR 耐药菌株和普通敏感菌株做对比时,RaCa-2 和 RaCa-3 的 MIC 几乎没有变化。 换句话说,细菌身上那些专门对付传统抗生素的耐药机制,对这些抗菌肽不起作用。这从实验层面印证了前面那个核心论点:抗菌肽的杀菌机制,和传统抗生素根本不是一回事。
这部分工作已发表于 BMC Genomics(2022)
如果说牛蛙基因组是一座矿山,那 UniProtKB/Swiss-Prot 这样的综合蛋白质数据库,就是一片浩瀚的大陆。这里的序列绝大多数都不是抗菌肽,要从大海里捞针,光有高灵敏度还不够——你更怕误报太多,把成千上万条假阳性丢进实验室,烧钱又烧时间。
为此,作者又训练了一个非均衡模型:它专门为这种非抗菌肽远远多于抗菌肽的场景优化,在非均衡测试集上特异度高达 99.09%。然后用非均衡加均衡两个模型做两级过滤:先粗筛,再精筛,只保留两个模型都判定为抗菌肽的序列,把假阳性压到极低。
把这套流程扫过 Swiss-Prot 里全部真核生物序列后,结果相当惊人:
但真正让人会心一笑的,是接下来的体外验证。作者挑了 38 条候选肽合成、测试,13 条显示出抗菌活性。而当你顺着这些有效肽回溯它们原本所在的来源蛋白时,会发现一件很反直觉的事——这些抗菌肽,常常藏在和免疫八竿子打不着的蛋白质里:
肽编号 | 来源蛋白 | 物种 | 抗大肠杆菌 MIC |
|---|---|---|---|
PlVi1(全场最强) | RxLR 效应蛋白(用来抑制宿主细胞死亡) | 葡萄霜霉病卵菌 | 4–8 µg/mL |
HoSa1 | 嗅觉受体 | 人 | 16 µg/mL(且抗金葡菌) |
DiDi2 | 跨膜蛋白 | 社会性变形虫 | 16 µg/mL |
DaRe1 | GTP 结合蛋白 | 斑马鱼 | 32–64 µg/mL |
GoGo1 | 转录抑制因子 | 大猩猩等灵长类 | 64 µg/mL |
UnBi1 | 神经毒素 | 海螺 | 128 µg/mL |
你没看错——一段来自人类嗅觉受体的肽、一段来自斑马鱼GTP 结合蛋白的肽、甚至一段来自海螺神经毒素的肽,都能杀菌。这传递出一个迷人的信息:潜在的抗菌肽,可能广泛隐身在各种我们从未关注过的蛋白质序列内部,只是从未被人识别出来。AI 在这里扮演的,正是那个能在浩如烟海的序列中嗅出隐藏宝藏的角色。
更让人安心的是,这些被验证的新肽里,绝大多数对(猪)红细胞没有溶血毒性(HC50 > 128 µg/mL)——这意味着它们在杀菌的同时,对宿主细胞相对友好,这是迈向药用的一个重要前提。
这部分前半段已发表于 BMC Research Notes(2023),后半段为待投稿手稿。AMPlify 已作为开源工具发布。
发现天然抗菌肽固然好,但它受限于来源:你得有组织样本去筛,或者有测序数据去挖。而设计自然界里压根不存在的合成肽,则打开了另一扇大门。
AMPd-Up 用的是一个循环神经网络(RNN)语言模型。
这里有个很美的类比:如果说人类语言由字母拼成单词,那蛋白质语言就由 20 种氨基酸拼成肽链。语言模型能学会下一个字母最可能是什么,AMPd-Up 学的则是抗菌肽序列的语法——氨基酸的排布规律。它从肽链的 N 端开始,一个残基一个残基地往下写,每一步都根据已经写出的部分,估计下一个氨基酸最可能是谁,直到写出结束符为止。
为了不让模型陷入只会写一种套路,作者用了一个聪明的设计:用不同的随机初始化,训练出许多个模型实例。 由于神经网络的损失函数通常是非凸的,不同的起点会收敛到略微不同的模型,于是每个实例都会从稍稍不同的角度去理解抗菌肽,从而探索序列空间里不同的角落。它的训练集是来自 APD3 的 2,253 条去冗余抗菌序列。
作者还定义了一个 AMPd-Up 分数,用来衡量模型对自己生成的这条序列有多大把握。
由于一条一条做实验太贵,作者先用 3 个独立的抗菌肽预测工具(AMPlify、AMP Scanner Vr.2、iAMPpred)来代为评估生成质量——看一批生成序列里,有多大比例被判定为真抗菌肽。和另外三种主流生成方法(LSTM 语言模型、AMPGAN v2、HydrAMP)相比:
生成方法 | 按 AMPlify 评 | 按 AMP Scanner 评 | 按 iAMPpred 评 |
|---|---|---|---|
AMPd-Up | 95.50% | 100.00% | 99.30% |
LSTM 语言模型 | 84.85% | 84.20% | 82.80% |
AMPGAN v2 | 90.90% | 87.55% | 94.85% |
HydrAMP | 87.50% | 94.60% | 97.70% |
无论用哪个工具来评,AMPd-Up 都拿了第一。 有意思的是,它的模型结构其实比不少竞争对手都更简单——作者借此说明:简单的模型只要训练得当,一样能打。
更关键的是原创性。AMPd-Up 生成的序列,与训练集的平均相似度只有约 49.97%,与所有已知抗菌肽的平均相似度约 51.03%。这说明模型不是在死记硬背(否则会生成和训练集高度雷同的序列),而是真正学到了抗菌肽的高阶特征,在创造全新的东西。作者还观察到,不同模型实例之间生成序列的相似度(33.56%),比同一实例内部(39.14%)还要低——这恰好印证了多实例从不同角度探索的设计意图。
最后是验证。作者从 1,000 个模型实例里挑出 58 条候选肽去做体外实验,结果 40 条对大肠杆菌和/或金黄色葡萄球菌展现出抗菌活性。其中 DeNo1018 最猛,对大肠杆菌的 MIC 低至 1–2 µg/mL;而 DeNo1007 则做到了对两种菌都高效杀灭、同时不溶血的理想组合。
这里还藏着一个对未来很有启发的观察:作者把生成肽按与已知抗菌肽的相似度分组,发现相似度较低的那些区间(40%–50%),活性比例反而很高(达 81.25%);超过六成的有效肽都落在 40%–60% 这个相似度区间里。这强烈暗示:在那片和已知抗菌肽不太像的广阔序列空间里,还有大量等待挖掘的新药。
(作者顺带还窥探了一下 AI 学到了什么:在 2 万条生成序列里,LLKK 和 LKKL 是出现最频繁的四联体模体——这恰好是构建两亲性 α-螺旋肽的经典积木。AI 在不被告知的情况下,自己领悟到了抗菌肽的结构规律。)
为什么合成肽特别有价值? 论文给出了一个直击要害的论点:既然这些肽在自然界中根本不存在,那么大多数微生物也就来不及、或没有现成的手段去对它们进化出耐药性。这让合成抗菌肽不仅是传统抗生素的替代品,也是天然抗菌肽之外的又一道防线。
这部分工作已投稿同行评审。AMPd-Up 同样作为开源工具发布。
把两条线收拢到一起,这篇博士论文的成果可以浓缩成几句话:
它最大的意义,或许不在于某一条具体的肽,而在于证明了一种范式是可行的:机器学习能够真正加速抗菌肽这类药物的发现与设计,把大海捞针变成按图索骥。在新抗生素研发停滞、耐药菌步步紧逼的当下,这是一件分量很重的事。
作者在文末表现得相当清醒,坦诚地列出了几道仍未跨过的坎,这也是这篇论文值得尊敬的地方:
第一,训练数据太小。 相比计算机视觉、自然语言处理动辄数十万乃至上百万的样本,经实验验证的抗菌肽数量实在有限(AMPd-Up 的训练集只有 2,253 条)。这是所有抗菌肽 AI 工具共同面临的瓶颈。好消息是,随着 AMPlify、AMPd-Up 这类高通量工具不断产出新候选,这个数据库本身也会越来越大——形成一个良性循环。
第二,模型还需要更多困难样本。 当前领域里缺少那种序列高度相似、活性却完全不同的样本(即长得像抗菌肽的非抗菌肽),这让模型对序列里的细微改动不够敏感。喂给它更多这样的困难样本,有望进一步提升精度。
第三,可解释性值得深挖。 注意力机制产生的权重,把机器学到的模式以一种直观方式呈现了出来——但这些权重到底有没有生物学含义?它们会不会反过来帮助我们理解抗菌肽至今未明的作用机制?这是一片诱人的处女地。
第四,迈向临床还有很长的路。 作者设想了未来可以同时预测肽的毒性和抗菌强度(理想的药物应当高效低毒),也提到当前的体外实验只覆盖了有限的几种细菌,需要在更广的微生物谱、更深的机制层面继续验证。
论文的最后一句话,朴素却动人。作者写道,他期待这些被发现或设计出来的抗菌肽,能在不太遥远的将来,从多重耐药菌的感染中拯救更多生命。
这是一篇典型的硬核与落地兼备的工作:它既有扎实的深度学习方法创新,又一路走到了培养皿里、走到了真实的耐药菌面前。对于关注 AI for Science、计算生物学、药物发现的读者来说,它示范了一条清晰的路径——好的 AI 工具,不该止步于跑分,而要能真正变出可以救命的分子。
而对我们所有人来说,它也是一则带着希望的提醒:在那场人类与超级细菌的漫长拉锯里,我们正在学会一种新的找药方式——去蛙皮里找,去数据库的犄角旮旯里找,甚至去那片自然界从未写过的虚空里,亲手把它创造出来。
AMPlify:
github.com/bcgsc/AMPlifyAMPd-Up:github.com/bcgsc/AMPd-Up本文为基于公开博士学位论文的解读分享,所有数据与结论均来自原论文,如需引用请以原文献为准。
Li, C. (2024). Machine learning for antimicrobial peptide discovery and design (T). University of British Columbia.
Retrieved from https://open.library.ubc.ca/collections/ubctheses/24/items/1.0440537
