为什么小分子药物设计比生物大分子更难？

DrugIntel

发布于 2026-07-03 20:55:32

小分子相比生物大分子具有更高的单位原子信息量

作者：Corin Wagen（Rowan 的联合创始人兼 CEO）

我最近一直在思考一个问题：不同类型生物分子的“信息含量”究竟有多大。小分子、多肽、抗体和寡核苷酸在不同场景下都可以成为有价值的治疗资产，但它们在合成、开发和模拟方面存在显著差异。许多差异已有公认解释：例如，寡核苷酸合成可以高度自动化；外源性小分子的代谢途径与多肽代谢完全不同，等等。但从更高层次来看，我认为许多差异都可以被理解为一个基本事实的下游结果：小分子具有更高的单位原子信息熵。

信息熵，也称为香农熵，以 Claude Shannon 命名，用于量化每一个新数据片段所带来的“惊讶程度”。例如，“AAAAAAAAAAAAACAAAAA”这样的序列熵较低，因为几乎每个字母都是 A。再看到一个 A 并不会给我们带来多少新信息，因此我们可以相当有把握地猜测下一个字母仍然是 “A”。相比之下，“ACTAGGACATAAGACAGGCT” 这样的序列熵较高，因为看起来每个位置都有四种不同可能。由于这种长度的可能序列数量非常多，略高于一万亿种，因此每增加一个新字母，都会传递大量信息，帮助我们确定它究竟是哪一个具体序列。

以上只是对香农熵非常简略的介绍，对于刚接触这一概念的读者可能并不充分。网上可以找到许多更好的入门材料。

对于分子而言，我们可以将单位原子信息含量近似为：可能分子数量的以 2 为底的对数，再除以原子数量。这个定义使我们可以快速估算不同分子模态的单位原子熵：

对于核酸，有 4 种有效核苷酸，对应每个核苷酸 2 bit 的熵。如果近似认为每个核苷酸含有 20 个重原子，那么寡核苷酸约含有每个重原子 0.1 bit 的信息熵。

对于蛋白质和其他多肽，有 20 种有效氨基酸，对应每个残基 4.32 bit 的熵。若假设每个残基平均含有 8.3 个重原子，则可得到每个重原子 0.52 bit 的信息熵。

小分子则是另一回事。GDB-17 论文估计，含有 17 个或更少重原子的类药分子共有 1660 亿个，其中绝大多数含有 15–17 个重原子。这相当于每个重原子 2.2 bit 的信息熵。

上述小分子的数值甚至可能偏保守：GDB-17 采用了相当保守的过滤条件，而且并未包含硫、磷、硼等元素。如果采用一个常被引用的估计，即 500 Da 以下可能存在约 10^60 个类药分子，并将其近似为含有 35 个重原子，那么可以得到一个显著更高的数值：每个重原子 5.7 bit 的信息熵。

小分子显著更高的信息熵，有助于解释为什么小分子的合成如此棘手。从根本上说，任何合成路线都必须具备足够高的特异性和选择性，才能在几乎无限多种潜在产物中明确指向目标分子。正因如此，化学家常常需要使用复杂且冷门的反应来实现所需选择性。大多数旨在简化小分子合成的方法，本质上都是通过大幅压缩可寻址化学空间，使得简单的“乐高积木式”路线可以被使用。未来几十年，合成技术当然会继续进步，但我认为，任意小分子的合成仍将因为一些根本且无法回避的原因而持续困难、复杂。

小分子的高信息含量也解释了为什么它们能够成为如此有效的药物。将大量信息压缩进少量原子的能力，使一个很小的分子也有可能实现令人印象深刻的选择性。举例来说，我们可以设计出高度选择性的激酶抑制剂，同时它们还足够小、足够非极性，能够穿过血脑屏障。这类事情对于多肽而言基本是不可能的。¹

不过，我最近思考这个问题最多的领域，是模拟和机器学习。从经验上看，预测或建模蛋白质–蛋白质结合似乎要比预测蛋白质–小分子结合容易得多。使用 BindCraft 等模型进行蛋白结合物设计已经表现良好，ipSAE 等指标也似乎与蛋白质–蛋白质结合亲和力具有较好的相关性；但对于小分子而言，类似问题似乎仍然大体未解，参见 Pat Walters 去年的相关讨论。

我认为，这仍然是信息含量差异的结果。虽然一个 300 个残基的蛋白质在总信息量上并不低于任何小分子，但在分子间相互作用的任意局部区域内，其整体复杂度要低得多。蛋白质中化学上不同的基团数量相对有限，例如吲哚、咪唑、酰胺等。因此，共折叠模型或其他生物分子机器学习模型有可能在较高层次上“学会”这些基团如何自然相互作用，而不必真正从全原子层面理解整个系统。这意味着，学习预测蛋白质–蛋白质相互作用或蛋白质–寡核苷酸相互作用，要比学习预测蛋白质–小分子相互作用容易得多，或许容易许多个数量级。

相比之下，小分子中几乎存在无限多种这类官能团，例如吡啶、喹唑啉、氮杂吲哚、噻二唑等等。每一种官能团都具有不同的化学性质，也与蛋白侧链具有不同的相互作用模式。这意味着，对小分子而言，数据稀缺问题比表面上看起来严重得多。因此，我对纯机器学习方法在中期内能否有效预测结合亲和力持怀疑态度。当然，我在这一点上也可能是错的。

那么，要真正学会任意原子间相互作用究竟需要多少数据？这一点很难确定，但神经网络势能领域的证据表明，所需数据量可能非常巨大。OMol25 数据集包含超过 1 亿次 DFT 计算，并带有能量标签和逐原子力标签，因此大约对应 10 亿至 100 亿个独立标签。基于 OMol25 训练的模型，是第一批似乎真正能够在非共价相互作用等问题上达到基于物理方法性能水平的模型。虽然 OpenBind 等计划很有前景，也非常有价值，但我怀疑即便新增数万个蛋白–配体复合物，在这里也未必足够。²

基于这些原因，我仍然看好物理方法以及与物理相邻的方法在小分子药物设计中的未来。量子化学和自由能微扰等方法能够避开纯机器学习方法所面临的训练数据限制，并且对任意小分子表现出良好的泛化能力。虽然我对 AI 驱动的科学新时代感到无比兴奋，但我认为，小分子巨大的信息含量对机器学习所能实现的目标设置了根本限制，也意味着无论好坏，在可预见的未来，我们仍将不得不继续依赖物理。

¹ 也有一些多肽和其他大分子确实能够穿过血脑屏障。其中一些似乎是通过主动转运实现的，但这里仍然存在一些未解之处。 ² 需要注意的是，数据可以有许多不同形式，这些问题的结构也并不相同，而且还存在其他因素使得这种比较并不完美。我使用这个类比，只是想说明：我们很可能需要多得多的数据，而不是只需要稍微多一点数据。本文来源：https://corinwagen.github.io/public/blog/20260701_information_content.html

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-07-03，如有侵权请联系 cloudcommunity@tencent.com 删除

数据