无监督训练在NLP中的价值体现

原创

用户11764306

发布于 2026-06-05 12:16:47

1210

当无监督训练在自然语言处理中奏效时

在词汇量较小的场景下，基于无标注数据训练的分词器效果最佳。

会议：LREC 2020

相关论文：语言无关分词在词语相似度预测任务上可与语言特定分词相媲美

大多数自然语言处理应用的第一步都是分词，即将输入字符串切分成语义相关的单元。在许多应用中，这些单元比单个词语更小。例如，能良好匹配查询词"word processing"的搜索结果可能包含短语"word processor"，后者与查询词共享了部分（而非全部）子词单元。

传统上，分词器的构建或训练依赖于人工编译的词典（包含词语的前缀、词干和后缀信息）以及人工标注的分词数据。此方法称为语言特定分词。

然而，近年来，NLP研究人员开始尝试通过分析大规模无标注数据来学习分词单元的系统。此方法的明显优势在于不依赖词典或人工分词语料库——这些资源需要为每个语言或领域单独创建。

语言无关分词系统在训练时未使用人工编译的词典，有时会学习到不合逻辑的词边界（如k/id、to/ys），而语言特定分词系统则能避免此类错误（如kid、toy/s）。但当LIT分词的嵌入（即转换为固定长度向量）后，它们在根据语义内容匹配文本的搜索任务中仍然有效。

此外，由于不依赖预编译的固定词典，我们更有可能准确分词从未见过的词语。LIT在机器翻译等应用中已取得一定成功，这些应用通常因处理速度限制而使用受限词汇表。然而，在更广泛的NLP应用中，LST与LIT的相对优势尚不明确。

在一篇被语言资源与评价会议接收的论文中，研究者在八种语言（英语、德语、西班牙语、波斯语、意大利语、日语、土耳其语、泰语）上，以不同词汇量规模比较了LST和LIT方法。

发现：虽然LST在大词汇量下仍表现更好，但在小词汇量（如少于5万个子词）场景下，LIT具有竞争力——在某些语言中甚至更优。这表明，对于词汇量有限的应用程序或缺乏现成词典数据的语言，LIT是可行的选择。

语义相似度实验

实验中对每种语言使用LST和LIT方法对语料库进行分词，并在分词后的语料库上学习子词嵌入。嵌入是将文本字符串表示为固定长度向量（高维空间中的点），使得相关词或短语的嵌入在空间中彼此接近。嵌入因此捕捉了文本字符串的部分语义内容。学习子词嵌入时，使用了GloVe方法。

随后通过三种方式从子词嵌入创建词嵌入：无加权平均、加权平均、以及平滑逆频率加权。然后测量两个词语之间的语义相似度（对应词嵌入的余弦相似度），最后计算预测相似度分数与人工标注相似度评分之间的相关性。高相关性表明分词保留了词语的语义信息，这对任何依赖分词的NLP下游应用都是有利的。

LIT使用了两种分词方法。一种基于字节对编码，原是数据压缩技术。BPE在训练文本中寻找最常见的符号对（如英语中"er"极为常见），用单个符号表示，然后重复此过程，不断添加代表更长字符串的新符号，直至达到预设限制。另一种基于一元语言模型，从单个符号和公共子串的集合开始，根据它们在语料库中的出现频率组装成新子串，当子串数量达到预设限制时结束。

可变词汇量实验

在八种语言上，对三种分词系统分别在不同大小的词汇子集上训练。LST模型在5千到1千万词汇上训练，LM模型在2万到1百万词汇上训练。训练BPE模型极其耗时，因此最大子集为10万词汇，最小为2万。

实验发现，训练在1百万或更多词汇上的LST分词器通常表现最佳，但有三个例外：德语（1百万词汇的LM模型最佳），波斯语和土耳其语（令人瞩目的是，分别训练在10万和5万词汇上的BPE模型最佳）。推测原因是这三种语言都是高度"黏着语"：能够容纳标准词典中不会出现的临时或低频复合词。

总体而言，在10万或更少词汇的场景下，两种LIT模型全面优于LST模型。这表明对于资源匮乏的语言或依赖受限词汇量的应用，LIT可能是LST的有吸引力的替代方案。

研究领域