MusicMol: 让分子「可听」、让音乐「可合成」——浙大团队提出分子-音乐双向翻译框架

DrugOne

发布于 2026-07-03 17:45:44

文章被收录于专栏：DrugOneDrugOne

浙江大学药学院申万祥团队提出MusicMol，一个将小分子与符号音乐（MIDI）双向关联的生成框架。在分子→音乐方向，基于条件流匹配的生成器将分子结构映射为MIDI，并通过邻域对齐损失确保结构相似的分子产生声学相似的乐谱；在音乐→分子方向，Transformer解码器将符号音乐翻译为化学有效的SELFIES分子字符串。在MoleculeACE 30个活性预测任务上，MusicMol的音乐衍生表征优于ChemBERTa、GROVER、ImageMol和Uni-Mol四种主流分子编码器。

性能概览

在MoleculeACE基准的30个分子活性预测任务上，MusicMol的音乐衍生piano-roll表征作为冻结特征，配合Ridge回归探针，在Spearman相关系数、R²和RMSE三项指标上优于四种覆盖不同模态的预训练分子编码器（ChemBERTa、GROVER、ImageMol、Uni-Mol），配对双侧t检验P值范围为9.4×10-7至9.9×10-15。

特别值得注意的是：MusicMol在k=5到k=100的所有邻域尺度上，局部标签不一致性指数（LII）均为最低，且在较小邻域（k=5, 10, 20）时优势最为显著——这正是与activity cliff行为最相关的尺度。

图1：对音乐衍生分子表征进行基准测试。

为什么需要MusicMol？——问题与动机

分子表征的感知局限

药物设计中的分子表征——SMILES/SELFIES字符串、分子拓扑图、2D图像、3D坐标——精确而高效，但它们有一个共同的局限：感知不透明。没有一种现有表征可以被听到，也没有一种表征能让非专业人员通过直觉来探索分子空间。

这种感知不透明性带来两个问题：一是分子设计的门槛高，需要化学信息学的专业训练；二是人类无法通过听觉等感官通道来探索分子空间，限制了跨学科协作和科普教育的可能性。

化学-音乐交叉研究的两个缺口

符号音乐提供了一种截然不同的结构化表示：音高、步进、时值、力度都是离散的、机器可读的事件，同时又能被人类直接感知。此前的化学-音乐交叉研究主要集中在教育可听化（Kumbar et al., 2007）、蛋白质-音乐映射（Yu et al., 2019, ACS Nano）和分子可听化（Mahjour et al., 2023, Digital Discovery）等方向。

这些工作证明了化学与音乐之间存在可映射的结构关系，但也存在两个关键缺口：

缺口一：没有显式地对齐分子相似性邻域与音乐相似性邻域，生成的音乐缺乏化学组织性
缺口二：音乐从未被系统地用作分子生成的输入模态，「音乐→分子」的反向翻译几乎未被探索

MusicMol同时填补了这两个空白。

图2：MusicMol框架总览——S2M（分子→音乐）与M2S（音乐→分子）形成闭环。

核心技术创新

创新点1：邻域对齐的分子-音乐映射（S2M）

S2M路线在200万ChEMBL化合物上训练了一个条件流匹配（Conditional Flow Matching）生成器。每个重原子由四层残差MPNN编码为256维上下文向量，然后通过流匹配从高斯噪声出发，逐步输运到四维音符参数（音高、步进、时值、力度）。

图3：邻域对齐的S2M生成路径。

ChemMusicRule规则热启动：为流匹配提供化学拓扑感知的初始目标——音高由BFS深度决定形成拱形旋律轮廓，步进由环大小和分支模式决定，力度与结构重要性挂钩（环连接点>分支点>末端原子）。

核化邻域对齐损失：这是MusicMol最核心的设计。通过softmax核将ECFP4分子指纹距离和soft piano-roll音乐距离转化为邻域概率分布，用KL散度对齐分布，同时用排序保持损失确保最近分子邻域在音乐空间中也保持更近。

训练结果显示，验证损失达到0.129（epoch 99），分子-音乐距离Pearson相关系数达到约0.90。

图4：S2M训练动力学——总损失、邻域对齐损失、分子-音乐距离相关性随epoch的变化。

创新点2：音乐到分子的Transformer解码（M2S）

由于实验性的分子-音乐配对数据不存在，团队用S2M对1000万个PubChem分子批量生成乐谱，构建了大规模分子-MIDI配对数据集。

M2S使用REMI/BPE编码器-解码器Transformer（6+6层，d_model=512，8头注意力），将音乐token序列（30,000词汇）自回归翻译为SELFIES分子字符串。SELFIES的语法保证确保每个生成的序列都对应化学有效的分子。

在验证集上，M2S取得了token级别准确率>95%、分子有效性接近100%的表现。SELFIES精确匹配约50%——考虑到音乐到分子的映射本身是ill-posed问题（同一段音乐可对应多种合理分子），且训练数据完全由S2M生成，这一结果是合理的。

图5：M2S解码通路。

创新点3：预训练-下游任务的形式一致性

MusicMol的S2M和M2S通过共享的符号音乐表示形成闭环：

S2M生成的乐谱、用户弹奏的旋律、外部MIDI文件，都通过同一个REMI tokenizer进入M2S编码器
预训练（S2M在ChEMBL上）与下游应用（M2S分子生成）共享同一音乐表示空间
这种形式一致性消除了模态转换的gap。

实验亮点——表征评估与交互部署

音乐表征vs.四大基线

图6：MusicMol与ChemBERTa / GROVER / ImageMol / Uni-Mol 的基线模型对比表。

实验设置

MoleculeACE 30个活性预测任务，冻结编码器+Ridge回归探针，Ridge正则化通过验证MSE在25个对数间隔值中选择。所有编码器不做微调。

核心发现

- MusicMol在Spearman、R²、RMSE上优于所有基线，P值范围为9.4×10-7至9.9×10-15

- LII在k=5到k=100的所有尺度上均为最低，小邻域优势更显著

- 改进跨30个assay靶点一致，非由少数数据集驱动

交互部署：浙大未来学习中心

MusicMol已部署为浙江大学未来学习中心的现场交互装置，集成了分子渲染、乐谱生成、钢琴播放和实时输入。用户可选择预设分子即时听化、绘制自定义结构（同步3D预览），或弹奏旋律生成分子候选物。

图7：MusicMol交互平台部署实景——（a）物理部署（b）分子→音乐界面（c）自定义分子输入（d）音乐→分子界面。

这种设计对分子设计的民主化具有启示意义：无需化学信息学背景，任何人都可以通过听觉和创作来探索分子空间。

局限与展望

团队指出了当前工作的几个关键局限：

表征评估限于MoleculeACE冻结探针，需在更多任务上验证。
M2S训练数据由S2M生成而非自然配对，在外部音乐上的行为需系统研究。
当前模型未优化可合成性、类药性、新颖性、多样性和靶点特异性活性。

未来方向包括：探索音乐属性（节奏、和声、调性、情感效价）是否诱导可重现的分子分布偏好；将M2S与靶点活性预测、对接打分、药效团约束耦合，实现音乐条件下的靶向分子设计等。

参考资料

Jiayi Tang, Ziyan Zhu, Chao Cui, et al. MusicMol: Bidirectional Molecule–Music Translation via Neighborhood-Aligned Generation and Transformer Decoding. ChemRxiv. 25 June 2026. DOI: https://doi.org/10.26434/chemrxiv.15005189/v1

代码

https://github.com/shenwxlab/MusicMol/tree/musicmol-v1

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-07-02，如有侵权请联系 cloudcommunity@tencent.com 删除

部署