首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >用机器学习发现和设计抗菌肽:一篇博士论文的解读

用机器学习发现和设计抗菌肽:一篇博士论文的解读

作者头像
MindDance
发布2026-06-05 20:08:56
发布2026-06-05 20:08:56
80
举报

深度解读 UBC 博士论文《机器学习用于抗菌肽的发现与设计》 题目:Machine Learning for Antimicrobial Peptide Discovery and Design, 2024 作者:Chenkai Li | 导师:Inanç Birol 教授


一、一个正在逼近的后抗生素时代

抗生素曾经是现代医学最大的底气之一。但今天,这份底气正在被一点点抽走。

细菌并不会乖乖待在原地等着被杀死。它们通过基因突变、互相交换耐药基因,一代代进化出对抗药物的本领。世界卫生组织对此忧心忡忡,专门发布了一份重点病原体清单——列出那些急需新药对付的细菌,其中 3 种被列为危急级,6 种高危级,3 种中危级。

更糟的是供给端。论文一开篇就点出一个残酷现实:从上世纪 90 年代起,新抗菌药物的发现速度大幅下滑,而耐药性的出现却在不断攀升。 一边是越来越能打的超级细菌,一边是越来越枯竭的弹药库,这道剪刀差正是悬在公共卫生头顶的一把利剑。

所谓多重耐药菌(MDR),指的是对三类或更多类抗菌药物中至少各一种都产生了抗性的细菌。当一种感染连最后一道防线的药物都压不住时,一台普通手术、一次小小的外伤,都可能重新变成致命的。

人类需要新的武器。而这篇博士论文,讲的正是如何用机器学习,去高效地寻找和设计一类被寄予厚望的新武器——抗菌肽


二、抗菌肽,免疫系统里的古老卫士

抗菌肽(Antimicrobial Peptides,简称 AMP) 是一类短小的生物分子,通常只有 10 到 50 个氨基酸长,大多带正电荷(阳离子),并且常常是两亲性的——也就是说,它们的分子结构里,亲水的部分和疏水的部分各占一面。

它们并不是什么新发明。事实上,从细菌到植物、昆虫,再到我们人类,几乎所有生命形式都把抗菌肽作为先天免疫的一部分,这是一套被进化反复打磨过的古老防御系统。

它最迷人的地方,在于杀菌的方式

大多数传统抗生素都有一个明确的靶点——某个特定的蛋白质或某条特定的代谢通路。细菌只要在这个靶点上发生一点突变,药物往往就失效了。而许多抗菌肽走的是另一条路:它们带的正电荷,会被细菌表面那层带负电的膜吸引、贴附上去;当浓度积累到一定程度,它们便直接穿透细菌的膜,打出一个个孔洞,以一种非酶促的方式把细菌撕开。

打个比方:传统抗生素像是一把要插进特定锁孔的钥匙,锁芯一换就开不了门;而很多抗菌肽更像是直接把整面墙凿穿——细菌想靠换把锁来防御,要难得多。这种独特机制,正是抗菌肽被认为更难被细菌产生耐药的根本原因。

当然,论文也指出:如果细菌长期暴露在抗菌肽下,耐药性依然可能出现,连救命的最后一招多黏菌素(colistin)都已经观察到耐药。所以这不是一劳永逸的银弹,而是一条需要持续补充弹药的赛道。

那么,抗菌肽都从哪里来? 论文引用抗菌肽数据库 APD3(截至 2023 年 1 月)的统计给出了答案:在全部 3,569 条记录里,两栖动物是最大的天然来源,贡献了 1,196 条(占 33.51%),而其中高达 93.39% 来自青蛙。其后依次是细菌、植物、昆虫和哺乳动物。

为什么是青蛙?因为青蛙的皮肤又薄又透——这让它能呼吸、能散热,却也让它格外容易受伤;再加上它们常年生活在潮湿、泥泞、病原体密布的环境里。为了在这样的险境中活下来,蛙皮进化出了一整套丰富的抗菌肽武器库。这个细节,后面会成为本研究的一个关键宝藏点。


三、两道难题,两件武器

寻找新抗菌肽,本质上有两条路,也对应着两道技术难题:

第一条路:发现。 大自然里、各种基因组和蛋白质数据库里,可能藏着大量我们还没认出来的天然抗菌肽。但直接进实验室做湿法筛选既慢又贵,海量的候选序列需要一种又快又准的方法来过筛。这在机器学习里,属于序列分类问题——给一段氨基酸序列,判断它是不是抗菌肽。

第二条路:设计。 20 种氨基酸的排列组合是天文数字级别的,这意味着有海量自然界里根本不存在、但同样能杀菌的全新肽等着我们去创造。可传统的人工设计高度依赖专家经验,产量上不去。这在机器学习里,属于序列生成问题——让模型无中生有地写出一段全新的、可能有效的抗菌肽序列。

这篇论文的两个核心目标,正好一一对应:

  • 发现 → 工具 AMPlify(序列分类 / 预测)
  • 设计 → 工具 AMPd-Up(序列生成)

更妙的是,作者把它们都拿去做了真刀真枪的体外实验验证——不是停留在模型说它行,而是合成出来、丢进培养皿,看它到底能不能杀死真实的细菌。

下面,我们一件一件来看。


四、AMPlify —— 教 AI 读懂哪段序列是抗菌肽

4.1 它的超能力:会划重点的深度学习模型

AMPlify 是一个基于深度学习的抗菌肽预测工具。它最大的创新点,在于把注意力机制 引入了抗菌肽预测——据作者所知,这是首个将注意力机制用于抗菌肽预测的机器学习应用

什么是注意力机制?灵感其实来自我们人类阅读时的本能:看一句话,我们会下意识地把目光聚焦在那几个关键词上,而不是平均地对待每个字。AMPlify 做的就是类似的事——给序列里不同位置赋予不同的权重,放大真正重要的信息,抑制无关的部分。

具体来说,它的模型像一条流水线:

  1. 先用一层 双向 LSTM,像逐字读句子那样,把序列的前后位置信息编码进来;
  2. 再用一层多头缩放点积注意力(MHSDPA),用多组权重视角重新提炼这段序列的表示——相当于从多个角度同时标出重点;
  3. 最后用一层上下文注意力(CA),把前面学到的信息浓缩成一个总结向量,做出最终判断。

不止如此,作者还用了一个挺巧妙的集成学习思路:把训练集切成 5 份,训练出 5 个子模型,再把它们的判断综合起来。论文的消融实验证明,正是这些注意力层和集成策略,让模型的表现一步步提升——而且这种提升在统计上是显著的(配对 t 检验 p < 0.05)。

4.2 它有多强?和前辈们的同台比试

作者把 AMPlify 和当时几个主流工具(iAMP-2L、iAMPpred,以及同为深度学习的 AMP Scanner Vr.2)放在同一个平衡测试集上正面比拼,结果如下:

工具

准确率

灵敏度

特异度

F1

AUROC

iAMPpred

74.01%

87.90%

60.12%

77.18%

80.70%

iAMP-2L

77.96%

88.26%

67.66%

80.02%

AMP Scanner Vr.2(原版)

78.50%

90.66%

66.35%

80.83%

88.33%

AMPlify(均衡+集成)

93.71%

92.93%

94.49%

93.66%

98.37%

简单解释几个指标:灵敏度高,意味着真抗菌肽更少被漏掉;特异度高,意味着假阳性更少被误判;AUROC 越接近 100% 越好。AMPlify 几乎在所有指标上都全面领先,而且能同时压低漏报和误报——这对后续昂贵的实验筛选至关重要。

而且作者还做了一件很硬核的事:把测试集按与训练集的相似度分层来看。结果发现,无论相似度阈值怎么设,AMPlify 的 F1 分数都最高。这说明它学到的不只是长得像不像见过的序列,而是抓住了更深层的、关于抗菌肽的高阶特征。

4.3 实战一:潜入牛蛙基因组挖宝

光跑分还不够。作者把 AMPlify 嵌进一条完整的生物信息学流程,去挖掘前面提到的那座宝藏——北美牛蛙(Rana [Lithobates] catesbeiana)的基因组

流程是这样的:先用同源搜索和基因组注释工具,从基因组里找出可能的抗菌肽前体序列,再切出成熟肽段,交给 AMPlify 打分。最终,从 101 条候选成熟序列中,有 75 条被预测为抗菌肽;挑出 11 条去做体外实验,其中 4 条展现出真实的抗菌活性,被命名为 RaCa-1、RaCa-2、RaCa-3、RaCa-7

测试用的靶子是一组对标 WHO 重点病原体的细菌,包括金黄色葡萄球菌、化脓性链球菌、铜绿假单胞菌,以及多株大肠杆菌——其中还有一株产碳青霉烯酶的多重耐药(MDR / CPO-NDM)大肠杆菌临床分离株,这正是最棘手的那类超级细菌。

表现最亮眼的是 RaCa-2:它对金黄色葡萄球菌的最低抑菌浓度(MIC)低至 2–4 µg/mL,对多株大肠杆菌也在 4–16 µg/mL 区间,是唯一对革兰氏阳性和阴性菌都能强力杀灭的一条。(MIC 越低,代表越少的药量就能压住细菌,也就越猛。)

但论文里最值得玩味的,是这样一个观察:当把 MDR 耐药菌株和普通敏感菌株做对比时,RaCa-2 和 RaCa-3 的 MIC 几乎没有变化。 换句话说,细菌身上那些专门对付传统抗生素的耐药机制,对这些抗菌肽不起作用。这从实验层面印证了前面那个核心论点:抗菌肽的杀菌机制,和传统抗生素根本不是一回事。

这部分工作已发表于 BMC Genomics(2022)

4.4 实战二:扫荡蛋白质数据库,挖出 8000 条新肽——以及一个意外发现

如果说牛蛙基因组是一座矿山,那 UniProtKB/Swiss-Prot 这样的综合蛋白质数据库,就是一片浩瀚的大陆。这里的序列绝大多数都不是抗菌肽,要从大海里捞针,光有高灵敏度还不够——你更怕误报太多,把成千上万条假阳性丢进实验室,烧钱又烧时间。

为此,作者又训练了一个非均衡模型:它专门为这种非抗菌肽远远多于抗菌肽的场景优化,在非均衡测试集上特异度高达 99.09%。然后用非均衡加均衡两个模型做两级过滤:先粗筛,再精筛,只保留两个模型都判定为抗菌肽的序列,把假阳性压到极低。

把这套流程扫过 Swiss-Prot 里全部真核生物序列后,结果相当惊人:

  • 共预测出 10,720 条抗菌肽,其中 8,008 条(74.70%)是全新的、从未被记录过的候选抗菌肽;
  • 这些新肽与已知抗菌肽的平均序列相似度只有 32.71%——新颖度极高
  • 作者把这 8,008 条全部公开放进了 Zenodo 仓库,等于给整个学界递上了一份待验证候选清单。

但真正让人会心一笑的,是接下来的体外验证。作者挑了 38 条候选肽合成、测试,13 条显示出抗菌活性。而当你顺着这些有效肽回溯它们原本所在的来源蛋白时,会发现一件很反直觉的事——这些抗菌肽,常常藏在和免疫八竿子打不着的蛋白质里:

肽编号

来源蛋白

物种

抗大肠杆菌 MIC

PlVi1(全场最强)

RxLR 效应蛋白(用来抑制宿主细胞死亡)

葡萄霜霉病卵菌

4–8 µg/mL

HoSa1

嗅觉受体

16 µg/mL(且抗金葡菌)

DiDi2

跨膜蛋白

社会性变形虫

16 µg/mL

DaRe1

GTP 结合蛋白

斑马鱼

32–64 µg/mL

GoGo1

转录抑制因子

大猩猩等灵长类

64 µg/mL

UnBi1

神经毒素

海螺

128 µg/mL

你没看错——一段来自人类嗅觉受体的肽、一段来自斑马鱼GTP 结合蛋白的肽、甚至一段来自海螺神经毒素的肽,都能杀菌。这传递出一个迷人的信息:潜在的抗菌肽,可能广泛隐身在各种我们从未关注过的蛋白质序列内部,只是从未被人识别出来。AI 在这里扮演的,正是那个能在浩如烟海的序列中嗅出隐藏宝藏的角色。

更让人安心的是,这些被验证的新肽里,绝大多数对(猪)红细胞没有溶血毒性(HC50 > 128 µg/mL)——这意味着它们在杀菌的同时,对宿主细胞相对友好,这是迈向药用的一个重要前提。

这部分前半段已发表于 BMC Research Notes(2023),后半段为待投稿手稿。AMPlify 已作为开源工具发布。


五、AMPd-Up —— 让 AI 无中生有地设计全新抗菌肽

发现天然抗菌肽固然好,但它受限于来源:你得有组织样本去筛,或者有测序数据去挖。而设计自然界里压根不存在的合成肽,则打开了另一扇大门。

5.1 像写诗一样写出一段蛋白质

AMPd-Up 用的是一个循环神经网络(RNN)语言模型

这里有个很美的类比:如果说人类语言由字母拼成单词,那蛋白质语言就由 20 种氨基酸拼成肽链。语言模型能学会下一个字母最可能是什么,AMPd-Up 学的则是抗菌肽序列的语法——氨基酸的排布规律。它从肽链的 N 端开始,一个残基一个残基地往下写,每一步都根据已经写出的部分,估计下一个氨基酸最可能是谁,直到写出结束符为止。

为了不让模型陷入只会写一种套路,作者用了一个聪明的设计:用不同的随机初始化,训练出许多个模型实例。 由于神经网络的损失函数通常是非凸的,不同的起点会收敛到略微不同的模型,于是每个实例都会从稍稍不同的角度去理解抗菌肽,从而探索序列空间里不同的角落。它的训练集是来自 APD3 的 2,253 条去冗余抗菌序列。

作者还定义了一个 AMPd-Up 分数,用来衡量模型对自己生成的这条序列有多大把握。

5.2 它生成的肽,质量如何?

由于一条一条做实验太贵,作者先用 3 个独立的抗菌肽预测工具(AMPlify、AMP Scanner Vr.2、iAMPpred)来代为评估生成质量——看一批生成序列里,有多大比例被判定为真抗菌肽。和另外三种主流生成方法(LSTM 语言模型、AMPGAN v2、HydrAMP)相比:

生成方法

按 AMPlify 评

按 AMP Scanner 评

按 iAMPpred 评

AMPd-Up

95.50%

100.00%

99.30%

LSTM 语言模型

84.85%

84.20%

82.80%

AMPGAN v2

90.90%

87.55%

94.85%

HydrAMP

87.50%

94.60%

97.70%

无论用哪个工具来评,AMPd-Up 都拿了第一。 有意思的是,它的模型结构其实比不少竞争对手都更简单——作者借此说明:简单的模型只要训练得当,一样能打。

更关键的是原创性。AMPd-Up 生成的序列,与训练集的平均相似度只有约 49.97%,与所有已知抗菌肽的平均相似度约 51.03%。这说明模型不是在死记硬背(否则会生成和训练集高度雷同的序列),而是真正学到了抗菌肽的高阶特征,在创造全新的东西。作者还观察到,不同模型实例之间生成序列的相似度(33.56%),比同一实例内部(39.14%)还要低——这恰好印证了多实例从不同角度探索的设计意图。

5.3 40 条全新合成肽,以及一个关于未知领域的提示

最后是验证。作者从 1,000 个模型实例里挑出 58 条候选肽去做体外实验,结果 40 条对大肠杆菌和/或金黄色葡萄球菌展现出抗菌活性。其中 DeNo1018 最猛,对大肠杆菌的 MIC 低至 1–2 µg/mL;而 DeNo1007 则做到了对两种菌都高效杀灭、同时不溶血的理想组合。

这里还藏着一个对未来很有启发的观察:作者把生成肽按与已知抗菌肽的相似度分组,发现相似度较低的那些区间(40%–50%),活性比例反而很高(达 81.25%);超过六成的有效肽都落在 40%–60% 这个相似度区间里。这强烈暗示:在那片和已知抗菌肽不太像的广阔序列空间里,还有大量等待挖掘的新药。

(作者顺带还窥探了一下 AI 学到了什么:在 2 万条生成序列里,LLKKLKKL 是出现最频繁的四联体模体——这恰好是构建两亲性 α-螺旋肽的经典积木。AI 在不被告知的情况下,自己领悟到了抗菌肽的结构规律。)

为什么合成肽特别有价值? 论文给出了一个直击要害的论点:既然这些肽在自然界中根本不存在,那么大多数微生物也就来不及、或没有现成的手段去对它们进化出耐药性。这让合成抗菌肽不仅是传统抗生素的替代品,也是天然抗菌肽之外的又一道防线。

这部分工作已投稿同行评审。AMPd-Up 同样作为开源工具发布。


六、这篇论文到底交付了什么?

把两条线收拢到一起,这篇博士论文的成果可以浓缩成几句话:

  • 一套双管齐下的策略:既从天然来源(基因组、蛋白质数据库)发现抗菌肽,又从头设计自然界不存在的合成抗菌肽——两条腿走路,最大化候选药物的数量与多样性,为后续严苛的临床筛选留足空间。
  • 两件开源工具:用于预测的 AMPlify,和用于生成的 AMPd-Up——两者在各自的赛道上都超越了当时的最先进方法。
  • 57 条经实验验证的全新抗菌肽:其中 4 条来自牛蛙基因组,13 条来自 Swiss-Prot 数据库,40 条由 AI 从头设计。

它最大的意义,或许不在于某一条具体的肽,而在于证明了一种范式是可行的:机器学习能够真正加速抗菌肽这类药物的发现与设计,把大海捞针变成按图索骥。在新抗生素研发停滞、耐药菌步步紧逼的当下,这是一件分量很重的事。


七、这远不是终点

作者在文末表现得相当清醒,坦诚地列出了几道仍未跨过的坎,这也是这篇论文值得尊敬的地方:

第一,训练数据太小。 相比计算机视觉、自然语言处理动辄数十万乃至上百万的样本,经实验验证的抗菌肽数量实在有限(AMPd-Up 的训练集只有 2,253 条)。这是所有抗菌肽 AI 工具共同面临的瓶颈。好消息是,随着 AMPlify、AMPd-Up 这类高通量工具不断产出新候选,这个数据库本身也会越来越大——形成一个良性循环。

第二,模型还需要更多困难样本。 当前领域里缺少那种序列高度相似、活性却完全不同的样本(即长得像抗菌肽的非抗菌肽),这让模型对序列里的细微改动不够敏感。喂给它更多这样的困难样本,有望进一步提升精度。

第三,可解释性值得深挖。 注意力机制产生的权重,把机器学到的模式以一种直观方式呈现了出来——但这些权重到底有没有生物学含义?它们会不会反过来帮助我们理解抗菌肽至今未明的作用机制?这是一片诱人的处女地。

第四,迈向临床还有很长的路。 作者设想了未来可以同时预测肽的毒性和抗菌强度(理想的药物应当高效低毒),也提到当前的体外实验只覆盖了有限的几种细菌,需要在更广的微生物谱、更深的机制层面继续验证。

论文的最后一句话,朴素却动人。作者写道,他期待这些被发现或设计出来的抗菌肽,能在不太遥远的将来,从多重耐药菌的感染中拯救更多生命


八、END

这是一篇典型的硬核与落地兼备的工作:它既有扎实的深度学习方法创新,又一路走到了培养皿里、走到了真实的耐药菌面前。对于关注 AI for Science、计算生物学、药物发现的读者来说,它示范了一条清晰的路径——好的 AI 工具,不该止步于跑分,而要能真正变出可以救命的分子。

而对我们所有人来说,它也是一则带着希望的提醒:在那场人类与超级细菌的漫长拉锯里,我们正在学会一种新的找药方式——去蛙皮里找,去数据库的犄角旮旯里找,甚至去那片自然界从未写过的虚空里,亲手把它创造出来。


参考文献

AMPlifygithub.com/bcgsc/AMPlify AMPd-Upgithub.com/bcgsc/AMPd-Up

本文为基于公开博士学位论文的解读分享,所有数据与结论均来自原论文,如需引用请以原文献为准。

Li, C. (2024). Machine learning for antimicrobial peptide discovery and design (T). University of British Columbia.

Retrieved from https://open.library.ubc.ca/collections/ubctheses/24/items/1.0440537

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、一个正在逼近的后抗生素时代
  • 二、抗菌肽,免疫系统里的古老卫士
  • 三、两道难题,两件武器
  • 四、AMPlify —— 教 AI 读懂哪段序列是抗菌肽
    • 4.1 它的超能力:会划重点的深度学习模型
    • 4.2 它有多强?和前辈们的同台比试
    • 4.3 实战一:潜入牛蛙基因组挖宝
    • 4.4 实战二:扫荡蛋白质数据库,挖出 8000 条新肽——以及一个意外发现
  • 五、AMPd-Up —— 让 AI 无中生有地设计全新抗菌肽
    • 5.1 像写诗一样写出一段蛋白质
    • 5.2 它生成的肽,质量如何?
    • 5.3 40 条全新合成肽,以及一个关于未知领域的提示
  • 六、这篇论文到底交付了什么?
  • 七、这远不是终点
  • 八、END
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档