正则化微调实现大语言模型解毒

原创

用户11764306

发布于 2026-06-05 20:06:18

通过正则化微调实现大语言模型的解毒

属性控制的微调可以产生遵守策略并在通用基准上实现竞争性性能的大语言模型。

作者：Charith Peris

2024年11月21日

阅读时长：3分钟

会议信息

EMNLP 2024

正文

大语言模型在各种任务上展现了令人印象深刻的性能，但正如多个实例所证实的，它们存在产生不当、不安全或有偏见输出的风险。在生成回复时，一个成功训练的大语言模型应遵守其创建者指定的策略集；例如，开发者可能希望限制大语言模型生成有毒回复。将此称为属性控制，因为它调节了大语言模型输出的某个属性。

在EMNLP 2024上展示的论文中，提出了一种新颖的方法，用于训练大语言模型在保持性能的同时遵守一组约束。首先将一个成功训练的大语言模型定义为能够满足以下约束的模型：

属性控制 —— 大语言模型输出遵守由创建者制定的策略
实用性保持 —— 大语言模型在实用性基准上保持与原模型相当的性能
训练效率 —— 属性控制微调的成本与典型微调相似

本工作受约束驱动学习和后验正则化经典思想的启发，即强制模型输出遵循特定分布。具体而言，训练一个辅助模型来控制特定的输出属性（本文中为毒性）。在微调过程中，该辅助模型估计在给定大语言模型当前状态下满足约束的最接近分布，并惩罚该估计与大语言模型当前分布之间的差距。

自然的方法是迭代地将大语言模型推向可行的生成区域，使估计逐步更准确。然而，这种方法是顺序的，会导致运行时间显著增加。论文中还提出了一种并行化算法，基于上一轮迭代的状态同时更新基础大语言模型和正则化器。实验证明，并行化实现了与顺序微调相同的性能水平，且时间复杂度与典型的未正则化微调相同。

还探索了自适应正则化（即在训练数据的相关部分使用领域特定的正则化器）以提高性能并防止灾难性遗忘。

实用性保持

在实验中，对Llama-7B和Falcon-7B模型进行了微调，使用的混合语料库包括等比例的ToxiGen（包含有毒回复的数据）和Wikitext（通用语料库）。使用自适应正则化器，本方法在满足毒性控制标准的同时，总体上比强化学习和过滤等标准方法更好地保持了性能。

毒性控制下的基准性能

模型	ToxiGen（越低越好）	MMLU（5-shot，越高越好）	常识推理（0-shot，越高越好）
Llama-7B
基线	23	35.1	75.6
过滤	21.9	34.6	75.1
强化学习	15.2	33.6	73.2
NADO解码	15.2	31.1	71.4
本文方法（无自适应）	15.2	30.4	71.9
本文方法（带自适应）	14.2	33.9	73.6
Falcon-7B
基线	14	27.2	76.1
过滤	13.6	26.4	74.9
强化学习	9.8	25.4	74.4
NADO解码	7.3	23.6	72.5
本文方法（无自适应）	7.1	23.1	71.8
本文方法（带自适应）	7.3	26.1	74.5

生成质量保持

当以OPT-30B作为评判者时，本方法生成的序列在质量上与基础模型生成的序列无差异。这证明了该方法保持了生成质量。本模型也优于使用过滤和强化学习方法训练的模型。

对基线的胜率

	基线	过滤	强化学习	本文方法
基线	N/A	44.3	45.1	51.4
过滤	55.7	N/A	53.4	61.6
强化学习	54.9	46.6	N/A	61.3
本文方法	48.6	38.4	38.7	N/A

毒性分类与生成

本方法最有趣的方面之一是它允许大语言模型从有毒内容中学习。在实验中，使用Jigsaw有毒内容数据集对Llama-7B模型进行毒性分类任务的微调。使用标准的监督微调时，模型在分类任务上的性能有所提升，但对有毒内容的更多接触使其自身更容易生成有毒内容。而使用本方法时，分类任务性能的提升反而降低了生成毒性。

Llama-7B模型在Jigsaw上的毒性控制性能

模型	API毒性	分类ROC
基线	0.315	0.910
监督微调（LLM损失）	0.344	0.966
本文方法（LLM损失）	0.288	0.959
监督微调（分类）	0.314	0.972

致谢

感谢实习生Tao Meng（加州大学洛杉矶分校）领导了这项论文工作，以及共同作者Ninareh Mehrabi、Palash Goyal、Anil Ramakrishna、Aram Galstyan、Richard Zemel、Kai-Wei Chang和Rahul Gupta的贡献。

研究领域

对话式人工智能