

原文信息 题目:Next-Generation Peptides: AI-driven approaches for peptide therapeutics beyond the natural repertoire 作者:Gökçe Geylan 类型:博士学位论文 发表年份:2026 DOI:10.63959/chalmers.dt/5824
多肽(Peptide)作为介于小分子药物与大分子生物制剂之间的"第三条路线",近年来在药物研发领域的战略地位急剧上升。2023年,司美格鲁肽(Semaglutide)凭借减重适应症创下全球药物销售纪录,将多肽疗法的潜力推向公众视野。事实上,多肽类药物凭借其独特的物理化学特征,已在多个治疗领域形成不可替代的优势:
然而,多肽药物的研发并非坦途。将一条具备初步活性的多肽命中物(Hit)发展成为可上市的独立药物(Standalone Drug),必须在以下三个维度同时满足苛刻的多参数优化(MPO)要求:
挑战维度 | 具体问题 |
|---|---|
代谢稳定性 | 天然肽键对蛋白酶高度敏感,胃肠道中的胃蛋白酶可迅速将其水解,导致口服生物利用度极低;血浆半衰期通常以分钟至小时计 |
膜通透性 | 多肽骨架亲水性强,难以自发穿越脂质双分子层,限制其对胞内靶点的可及性 |
溶解度 | 增强通透性往往需要引入疏水基团,而溶解度与通透性之间存在固有张力 |
专利保护 | 由天然氨基酸构成的多肽序列若与自然界已知序列相似,则难以获得有效专利保护 |

解决上述挑战的核心策略之一是引入非天然氨基酸(Non-Natural Amino Acids, NNAAs)。从化学视角看:
司美格鲁肽中仅含一个NNAA(2-氨基异丁酸,Aib),便足以显著提升酶降解抵抗力、延长半衰期,从而支撑每周一次的给药方案。
然而,这一化学空间的扩张也带来了计算与实验层面的双重挑战:
正是在这一背景下,本论文系统构建了覆盖"设计—预测—合成评估"全流程的AI工具链,为NNAA驱动的下一代多肽药物研发提供了完整的计算解决方案。

本论文以三大核心问题为主轴,对应四篇发表或在投的学术论文:
研究框架
├── 设计层:如何生成化学多样、含NNAA的多肽候选分子?
│ └── Paper I:PepINVENT — 生成式多肽设计模型
│
├── 预测层:如何可靠评估生成分子的药理性质?
│ ├── Paper II:环状多肽膜通透性预测的适用域方法论
│ └── Paper III:不确定性感知评分融入强化学习优化循环
│
└── 合成层:如何评估设计分子的实际可合成性?
└── Paper IV:NNAA-Synth — NNAA合成规划与可行性评估工具这一框架的独特之处在于将多肽设计问题重新定义为小分子配体设计问题——氨基酸本质上是小分子,因此针对小分子开发的一整套AI工具(生成模型、逆合成规划、ADME预测)均可迁移应用于含NNAA的多肽,从而绕开多肽领域标注数据严重匮乏的核心困境。

现有多肽生成模型普遍将氨基酸视为离散符号(如字母"A"代表丙氨酸),本质上是在序列空间中进行组合搜索。这一范式有两大根本局限:
PepINVENT的核心创新在于采用原子分辨率的化学表示——以CHUCKLES格式编码每个氨基酸的完整SMILES字符串,将多肽序列转化为原子级的化学语言。这一转变的意义在于:
为克服标注数据稀缺的问题,论文采用半合成数据生成策略构建训练集:
训练任务设计(文本填充范式):随机遮蔽每条训练多肽中最多30%的氨基酸位置(替换为占位符"?"),将"含遮蔽位的多肽源序列"→"被遮蔽的氨基酸目标序列"构成有监督的配对训练数据。
这一设计直接对应实际的先导化合物优化场景:药效团残基固定,可修饰位点开放探索。
采用编码器-解码器Transformer架构,相较于循环神经网络(RNN)在处理多肽这类较长SMILES序列时具有显著优势——自注意力机制可有效捕获长程依赖,避免RNN在序列延伸时的化学有效性衰减。
模型形式化描述为:
训练目标为最小化目标序列的负对数似然(NLL):

基于REINVENT的策略梯度框架,将生成器(Agent)与多目标评分函数(Scoring Function)耦合,实现性质导向的迭代优化:


指标 | 集束搜索(Beam Search) | 多项采样(Multinomial) |
|---|---|---|
化学有效率(Peptide Validity) | 99% | 98% |
唯一性(Peptide Uniqueness) | 100% | 98% |
拓扑完成正确率 | — | 98% |

在多项采样模式(探索模式)下,每条测试多肽平均产生:
以一条与HIV复制通路靶蛋白结合的9肽药效团序列作为查询起点,设置六项评分组件(最大环尺寸、CAMSOL-PTM溶解度、膜通透性分类器、亚结构警报过滤、多样性过滤、环拓扑约束),运行1000步强化学习优化:
细胞膜通透性是多肽药物进入胞内靶点的必要条件。PAMPA(平行人工膜通透性实验)以低成本、高通量著称,是公开通透性数据最为丰富的来源。CycPeptMPDB数据库汇聚了35项发表研究中的6,876条环状多肽通透性数据(PAMPA实验,log P > -6判定为可通透)。
然而,这一数据集存在两个严重的结构性缺陷,对预测模型的开发产生根本性影响:
缺陷一:类别不平衡 研究人员倾向于发表"成功"案例——即那些经修饰后变为可通透的多肽,导致数据集中可通透样本占比过高(各来源中"可通透"类占56%~90%)。
缺陷二:来源域高度不一致 不同研究团队采用不同的合成策略、修饰手法和多肽骨架,形成化学空间中高度分离的"岛屿"。PCA可视化清晰显示各来源数据集在化学空间中几乎无重叠,导致传统随机划分的训练/测试集评估严重高估模型的真实泛化能力。
论文采用留一数据源评估(Leave-One-Source-Out Evaluation)策略,选取数据量最大的4个来源(Furukawa 2016 / Chugai 2013 / Kelly 2021 / Townsend 2020,各占总数据集9.7%~44.9%)逐一作为外部测试集,训练4种机器学习算法(RF / SVM / XGBoost / LightGBM),共建立16个模型。
分子描述符采用2048位手性感知Morgan指纹(半径r=4),保留立体化学信息以捕获D-氨基酸替换、N-甲基化等微小修饰。
共形预测是一种分布无关(Distribution-Free)、模型无关(Model-Agnostic)的不确定性量化框架,其核心特性在于:在可交换性(数据独立同分布)假设下,以用户指定的置信水平为硬约束,统计保证预测集合的有效性。
具体流程(归纳式共形预测,ICP):
采用Mondrian ICP(按类别独立校准)以处理类别不平衡,避免多数类主导校准结果。
二分类预测集合规则:
预测集
输出 | 含义 | 有效性要求 |
|---|---|---|
单一类别 {0} 或 {1} | 高置信度单标签预测,效率最高 | 预测类别须为真实类别 |
双类别 {0,1} | 模型无法在该置信水平下区分两类 | 真实类别涵盖于集合内(有效但低效) |
空集 ∅ | 非符合度异常,置信水平无法满足 | 可视为预测失败(需人工审核) |
评估指标:有效性(Validity) = 正确单标签 + "两者均可" / 真实类别样本数;效率(Efficiency) = 单标签预测数 / 真实类别样本数。
校准策略 | 校准集组成 | 有效性 | 效率 |
|---|---|---|---|
源域校准(基线) | 训练集的随机分层子集 | 高(但在目标域虚高) | 低(大量"两者均可"输出) |
混合校准 | 源域校准集 + 20%目标域样本 | 轻微下降 | 中等提升 |
目标域校准(最优) | 100%目标域少量代表性样本 | ≥80%(满足置信水平要求) | 显著提升 |
核心结论:校准集与测试集的可交换性是共形预测效率的决定因素。仅需少量目标域实验数据(样本量远小于有效重训练所需)对已训练模型进行重校准,即可在无需重新训练模型的前提下,将模型适用域扩展至新的化学空间,且统计有效性有保证。
这一结论对于实际的多肽药物研发具有重要工程价值:研究团队只需对新化学系列的少量化合物进行实验表征,即可使现有预测器在该新化学空间获得可靠预测能力。
在Paper I建立的PepINVENT生成框架中,强化学习依赖评分函数对每步生成的多肽批次进行评分。当预测模型(如通透性分类器)被用作评分组件时,存在一个根本性问题:
随着强化学习引导生成器探索越来越新颖的化学空间,生成的多肽逐渐偏离预测模型的训练分布,模型进入适用域外(Out-of-Domain)区域,其预测实质上退化为随机猜测。
在此情况下,高模型预测值(如"通透概率=0.9")并不意味着真实的通透可能性高,而可能仅仅反映模型在陌生化学空间中的无根据自信(Overconfidence)。这会导致强化学习被误导,在无法可靠预测的化学区域"狂奔"而不自知。

论文在150条测试多肽(6-/7-/10-mer环状多肽,来自Baker et al.独立数据集,未用于模型训练与校准)上,对比了六种将通透性预测融入RL奖励的策略,监控350步学习过程中P0(非通透类共形p值)与P1(通透类共形p值)的演化:
策略 | 奖励信号 | 过渡点(步数)↓越小越好 | P0均值最终达到 < 0.2? |
|---|---|---|---|
基线:原始模型概率 | P(通透类) | 163 | 否 |
最大化P1 | CP p1 | — | 否 |
最大化1-P0 | CP 1-p0 | — | 否 |
最大化P1-P0 | CP p1-p0差值 | — | 否 |
严格奖励(Harsh) | 二元:P0≤0.2且P1≥0.2得1,否则得0 | 110 | 否(350步内未达到) |
软性奖励(Soft) | 分段:同时满足得1,单一满足得0.5,否则得0 | 77 | 是 |
过渡点定义为批次平均P1首次超越P0的学习步骤——代表生成器开始稳定生产被预测为"可通透"类别的多肽。
软性奖励函数的形式化定义:
(单条件满足)(双条件满足)
当生成式模型(如PepINVENT)提出含新型NNAA的多肽时,实验验证面临两层合成挑战:
第一层:NNAA本身是否可合成? 许多新型NNAAs不具备商业供货,需要作为小分子合成问题独立规划多步合成路线。
第二层:合成的NNAA是否具备SPPS兼容性? 即便NNAA可以合成,若其所有活性基团无法被正交保护基体系有效保护,则无法直接用于固相多肽合成(SPPS)。正交性要求不同活性基团的保护基在各自特异的去保护条件下独立脱除,互不干扰。
仅评估NNAA的"小分子合成可行性"而忽略保护基策略,可能导致合成可行性判断严重失真(例如,一个"易合成"的NNAA可能因无法实现有效正交保护而完全无法用于SPPS)。
NNAA-Synth是一个端到端的三模块工具链,输入为任意NNAA的SMILES字符串,输出为各保护形式对应的合成可行性评分:
NNAA (SMILES)
│
▼
[模块1] 化学信息学保护基规划工作流
│ ├── SMARTS活性基团检测(骨架氨基/羧基 + 侧链活性基)
│ ├── 骨架保护:Fmoc (氨基, 碱性脱除) + tert-Butyl (羧基, 酸性脱除)
│ └── 侧链保护:正交选项(Bn / Allyl / PMB / TMSE,需氢化/氧化/氟化脱除)
│ → 输出:1 至 32 种正交保护形式
│
▼
[模块2] AiZynthFinder 逆合成规划
│ ├── 蒙特卡洛树搜索 (MCTS) + 神经网络决策
│ ├── 反应模板库:USPTO专利数据训练
│ ├── 起始原料库:eMolecules + 保护基化合物
│ └── 特殊处理:复杂保护基视为整体,优先寻找含保护基的商业原料
│ → 输出:每种保护形式的多条候选合成路线
│
▼
[模块3] 双模型合成可行性评分
├── Chemformer可行性评分(反应级别)
│ ├── 预训练Transformer,输入反应物 → 预测产物Top10
│ ├── 真实产物在Top10内 → 步骤得分 = 产物似然
│ ├── 不在Top10内 → 步骤得分 = 0
│ └── 路线总分 = 各步骤得分之积(0分为过滤器,剔除不可行路线)
│
└── 专家增强可行性评分(路线级别)
├── 描述符:反应级 + 路线级 + 目标分子级特征
├── 预测路线可行性:"Good"(<5分)/ "Plausible"(5-9分)/ "Bad"(≥9分)
└── 融合:到历史数据的潜空间距离 + 路线长度惩罚两个模型的互补性:Chemformer在单步化学反应合理性上具有局部精确度,专家增强模型在路线整体质量评估上具有全局视角;双模型联合评分的鲁棒性显著优于单一模型。

对9,985个公开NNAAs进行系统评估,保护基规划产生15,508种保护形式(约1/3的NNAAs需要侧链保护,最多产生32种保护变体):
评估维度 | 完整保护库(15,508个) | 最优保护子库(9,985个,每个NNAA选最优保护) |
|---|---|---|
起始原料可及性 | 89.26% ± 10.40% | 89.19% ± 11.27% |
平均反应步数 | 8.95 ± 4.92 | 8.60 ± 4.98 |
Chemformer可行性评分(均值) | 0.05 ± 0.15 | 0.07 ± 0.16 |
专家增强可行性评分(均值,越低越好) | 8.63 ± 5.48 | 7.86 ± 5.40 |
不可行比例(任何保护形式下) | — | ~17% |
路线直达可购买前体比例 | — | ~25% |
关键发现:简单的路线统计指标(步数、前体可及率)不足以区分建筑块的合成难度,需要结合双模型可行性评分进行综合判断。
以NNAA "2G6"为例(含侧链活性基,生成4种正交保护形式):
保护组合 | 反应步数 | 前体可及率 | Chemformer评分 | 专家增强评分 | 综合结论 |
|---|---|---|---|---|---|
Fmoc + tBu + Allyl | 3 | 100% | 0.137 | 4.31(Good) | 推荐 |
Fmoc + tBu + Bn | 3 | 100% | 0.344 | 5.12(Plausible) | 可行 |
Fmoc + tBu + PMB | 5 | 100% | 0.011 | 7.13(Plausible) | 一般 |
Fmoc + tBu + TMSE | 17 | 90% | 0.001 | 19.91(Bad) | 不推荐 |
将NNAA-Synth作为结构筛选后的合成可行性过滤层,对某9肽单点突变的约10,000个NNAA变体进行三维优先级排序(对接评分 × MM-GBSA评分 × NNAA合成可行性):
全部NNAA变体(~10,000个)
└── 结构打分筛选(对接 < -10 且 MM-GBSA < -70):→ 123个候选
└── 合成可行性过滤(Expert-Augmented Score < 5):→ 61个候选
└── 前体可及性要求(Available Precursors):→ 52个候选
└── 反应步数约束(< 3步):→ 17个候选(推荐直接合成验证)这一案例有力证明:仅依据结构评分筛选出的"最佳"候选中,相当比例的NNAAs在实际合成中面临重大障碍,忽略合成可行性将造成严重的实验资源浪费与迭代延误。

创新维度 | 具体贡献 | 解决的关键痛点 |
|---|---|---|
化学表示层 | CHUCKLES编码使多肽设计获得原子分辨率,突破固定词表限制 | 生成模型无法处理NNAA的根本障碍 |
数据工程层 | 百万半合成数据集跨越自然与非自然氨基酸边界 | NNAA标注数据稀缺问题 |
不确定性量化层 | 共形预测(CP)方法论系统化应用于多肽ADME预测 | 预测模型适用域外可靠性缺失 |
域适应层 | 目标域小样本重校准实现无需重训的适用域扩展 | 新化学系列模型迁移成本高 |
奖励函数层 | 共形效率作为RL奖励直接优化预测置信度 | 生成过程中模型漂移导致评分失真 |
合成评估层 | 保护基策略+逆合成+双模型评分的SPPS兼容合成可行性评估 | "可设计"到"可合成"的执行鸿沟 |
维度 | 现有主流工作 | 本论文 |
|---|---|---|
氨基酸词表 | 固定于20种天然氨基酸,或少量预定义NNAA | 开放式:任意原子级化学结构 |
拓扑支持 | 通常单一拓扑(如仅线性或仅环状) | 线性/头尾环化/侧链-尾环化/二硫桥 |
不确定性量化 | 极少涉及,或仅使用模型内置置信度 | 分布无关共形预测,统计有效性保证 |
合成可行性 | 通常作为事后过滤,不考虑SPPS保护基需求 | 与SPPS保护基规划深度集成 |
数据依赖 | 依赖大量NNAA实验标注数据 | 将问题转化为小分子问题,复用小分子工具 |