
浙江大学药学院申万祥团队提出MusicMol,一个将小分子与符号音乐(MIDI)双向关联的生成框架。在分子→音乐方向,基于条件流匹配的生成器将分子结构映射为MIDI,并通过邻域对齐损失确保结构相似的分子产生声学相似的乐谱;在音乐→分子方向,Transformer解码器将符号音乐翻译为化学有效的SELFIES分子字符串。在MoleculeACE 30个活性预测任务上,MusicMol的音乐衍生表征优于ChemBERTa、GROVER、ImageMol和Uni-Mol四种主流分子编码器。

性能概览
在MoleculeACE基准的30个分子活性预测任务上,MusicMol的音乐衍生piano-roll表征作为冻结特征,配合Ridge回归探针,在Spearman相关系数、R²和RMSE三项指标上优于四种覆盖不同模态的预训练分子编码器(ChemBERTa、GROVER、ImageMol、Uni-Mol),配对双侧t检验P值范围为9.4×10-7至9.9×10-15。
特别值得注意的是:MusicMol在k=5到k=100的所有邻域尺度上,局部标签不一致性指数(LII)均为最低,且在较小邻域(k=5, 10, 20)时优势最为显著——这正是与activity cliff行为最相关的尺度。

图1:对音乐衍生分子表征进行基准测试。
为什么需要MusicMol?——问题与动机
分子表征的感知局限
药物设计中的分子表征——SMILES/SELFIES字符串、分子拓扑图、2D图像、3D坐标——精确而高效,但它们有一个共同的局限:感知不透明。没有一种现有表征可以被听到,也没有一种表征能让非专业人员通过直觉来探索分子空间。
这种感知不透明性带来两个问题:一是分子设计的门槛高,需要化学信息学的专业训练;二是人类无法通过听觉等感官通道来探索分子空间,限制了跨学科协作和科普教育的可能性。
化学-音乐交叉研究的两个缺口
符号音乐提供了一种截然不同的结构化表示:音高、步进、时值、力度都是离散的、机器可读的事件,同时又能被人类直接感知。此前的化学-音乐交叉研究主要集中在教育可听化(Kumbar et al., 2007)、蛋白质-音乐映射(Yu et al., 2019, ACS Nano)和分子可听化(Mahjour et al., 2023, Digital Discovery)等方向。
这些工作证明了化学与音乐之间存在可映射的结构关系,但也存在两个关键缺口:
MusicMol同时填补了这两个空白。

图2:MusicMol框架总览——S2M(分子→音乐)与M2S(音乐→分子)形成闭环。
核心技术创新
创新点1:邻域对齐的分子-音乐映射(S2M)
S2M路线在200万ChEMBL化合物上训练了一个条件流匹配(Conditional Flow Matching)生成器。每个重原子由四层残差MPNN编码为256维上下文向量,然后通过流匹配从高斯噪声出发,逐步输运到四维音符参数(音高、步进、时值、力度)。

图3:邻域对齐的S2M生成路径。
ChemMusicRule规则热启动:为流匹配提供化学拓扑感知的初始目标——音高由BFS深度决定形成拱形旋律轮廓,步进由环大小和分支模式决定,力度与结构重要性挂钩(环连接点>分支点>末端原子)。
核化邻域对齐损失:这是MusicMol最核心的设计。通过softmax核将ECFP4分子指纹距离和soft piano-roll音乐距离转化为邻域概率分布,用KL散度对齐分布,同时用排序保持损失确保最近分子邻域在音乐空间中也保持更近。
训练结果显示,验证损失达到0.129(epoch 99),分子-音乐距离Pearson相关系数达到约0.90。

图4:S2M训练动力学——总损失、邻域对齐损失、分子-音乐距离相关性随epoch的变化。
创新点2:音乐到分子的Transformer解码(M2S)
由于实验性的分子-音乐配对数据不存在,团队用S2M对1000万个PubChem分子批量生成乐谱,构建了大规模分子-MIDI配对数据集。
M2S使用REMI/BPE编码器-解码器Transformer(6+6层,d_model=512,8头注意力),将音乐token序列(30,000词汇)自回归翻译为SELFIES分子字符串。SELFIES的语法保证确保每个生成的序列都对应化学有效的分子。
在验证集上,M2S取得了token级别准确率>95%、分子有效性接近100%的表现。SELFIES精确匹配约50%——考虑到音乐到分子的映射本身是ill-posed问题(同一段音乐可对应多种合理分子),且训练数据完全由S2M生成,这一结果是合理的。

图5:M2S解码通路。
创新点3:预训练-下游任务的形式一致性
MusicMol的S2M和M2S通过共享的符号音乐表示形成闭环:
实验亮点——表征评估与交互部署

图6:MusicMol与ChemBERTa / GROVER / ImageMol / Uni-Mol 的基线模型对比表。
MoleculeACE 30个活性预测任务,冻结编码器+Ridge回归探针,Ridge正则化通过验证MSE在25个对数间隔值中选择。所有编码器不做微调。
- MusicMol在Spearman、R²、RMSE上优于所有基线,P值范围为9.4×10-7至9.9×10-15
- LII在k=5到k=100的所有尺度上均为最低,小邻域优势更显著
- 改进跨30个assay靶点一致,非由少数数据集驱动
MusicMol已部署为浙江大学未来学习中心的现场交互装置,集成了分子渲染、乐谱生成、钢琴播放和实时输入。用户可选择预设分子即时听化、绘制自定义结构(同步3D预览),或弹奏旋律生成分子候选物。

图7:MusicMol交互平台部署实景——(a)物理部署(b)分子→音乐界面(c)自定义分子输入(d)音乐→分子界面。
这种设计对分子设计的民主化具有启示意义:无需化学信息学背景,任何人都可以通过听觉和创作来探索分子空间。
局限与展望
团队指出了当前工作的几个关键局限:
未来方向包括:探索音乐属性(节奏、和声、调性、情感效价)是否诱导可重现的分子分布偏好;将M2S与靶点活性预测、对接打分、药效团约束耦合,实现音乐条件下的靶向分子设计等。
参考资料
Jiayi Tang, Ziyan Zhu, Chao Cui, et al. MusicMol: Bidirectional Molecule–Music Translation via Neighborhood-Aligned Generation and Transformer Decoding. ChemRxiv. 25 June 2026. DOI: https://doi.org/10.26434/chemrxiv.15005189/v1
代码
https://github.com/shenwxlab/MusicMol/tree/musicmol-v1