我们提出了一种解决这一问题的简单且有效的方法,并且在 Penn Treebank 和 WikiText-2 上分别将当前最佳的困惑度水平改善到了 47.69 和 40.68。 表 2:在 WikiText-2 上的单个模型困惑度。基准结果是从 Merity et al. (2017) 和 Krause et al. (2017) 获得的。† 表示使用了动态评估。 表 4:在 Penn Treebank 和 WikiText-2 上的 ablation study,没有使用微调或动态评估。
本文提出了一个简单有效的解决方法,并且将Penn Treebank和WikiText-2中的perplexities分别提高到47.69和40.68。 动态评估将Penn Treebank和WikiText-2数据集上的perplexities分别提高到51.1和44.3。 使用这些和其他正则化策略,本文在两个数据集上实现了state-of-the-art word level perplexities:Penn Treebank上的57.3和WikiText-2上的65.8 在结合我们提出的模型探索神经缓存的有效性时,在Penn Treebank上实现了更低的52.8的state-of-the-art word level perplexities,而在WikiText-2 本文评估了提出的模型,并在Penn Treebank和Wikitext-2上达到了当前最优结果。
实验结果 生成任务 作者对经过 SliceGPT 和 SparseGPT 剪裁后大小不同的 OPT 和 LLAMA-2 模型系列在 WikiText-2 数据集中进行了性能评估。 图中上行显示的是 SliceGPT 在 WikiText-2 中的平均准确率,下行显示的是 SliceGPT 在 Alpaca 的平均准确率。 可以发现,RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异,模型在 Alpaca 数据集中展现了更好的性能。 作者还发现 Phi-2 无法在 WikiText-2 数据集中,从被剪裁过的模型中恢复原有准确率,但在 Alpaca 数据集中能恢复几个百分点的准确率。
此类文本的一个很好的例子是WikiText-2数据集(https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset GPT-2/GPT和因果语言建模 以下示例对WikiText-2上的GPT-2进行了微调。我们正在使用原始的WikiText-2(在标记化之前没有替换任何标记)。这里的损失是因果语言建模的损失。 RoBERTa / BERT和掩码语言建模 以下示例对WikiText-2上的RoBERTa进行了微调。在这里,我们也使用原始的WikiText-2。
实验结果 生成任务 作者对经过 SliceGPT 和 SparseGPT 剪裁后大小不同的 OPT 和 LLAMA-2 模型系列在 WikiText-2 数据集中进行了性能评估。 图中上行显示的是 SliceGPT 在 WikiText-2 中的平均准确率,下行显示的是 SliceGPT 在 Alpaca 的平均准确率。 可以发现,RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异,模型在 Alpaca 数据集中展现了更好的性能。 作者还发现 Phi-2 无法在 WikiText-2 数据集中,从被剪裁过的模型中恢复原有准确率,但在 Alpaca 数据集中能恢复几个百分点的准确率。
Treebank 4.指代消歧 CoNLL 2012 5.依存解析 Penn Treebank 6.对话 第二对话状态追踪挑战赛 7.域适应 多领域情感数据集 8.语言建模 Penn Treebank WikiText WikiText-2 WikiText-2(《Pointer Sentinel Mixture Models》)相比于 Penn Treebank,其在语言建模中是更接近实际的基准。 WikiText-2 由大约两百万个从维基百科文章中提取的单词构成。 ? 机器翻译 机器翻译是将句子从源语言转换为不同的目标语言的任务。
项目作者freeky78在本地测试中获得了不错的结果:在Wikitext-2数据集上,压缩后仍能保持约0.90的余弦相似度;技术文档和长文本的相似度也在0.85-0.89之间。
在CIFAR-10,ImageNet,Penn Treebank和WikiText-2上进行了大量实验,表明本文的算法擅长于发现用于图像分类的高性能卷积结构和用于语言建模的循环神经网络结构,同时比现有技术的非微分搜索技术要快几个数量级
有了比赛规则之后,研究人员招募了200多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是WikiText-103和WikiText-2以及Penn Treebank,代表了多年来用于评估语言模型的高质量文本数据 数据集 参与测评的包含400多个在WikiText-103(WT103)、WikiText-2(WT2)和Penn Treebank(PTB)上评估的语言模型,其中约60%可用于分析。
Treebank 4.指代消歧 CoNLL 2012 5.依存解析 Penn Treebank 6.对话 第二对话状态追踪挑战赛 7.域适应 多领域情感数据集 8.语言建模 Penn Treebank WikiText WikiText-2 WikiText-2(《Pointer Sentinel Mixture Models》)相比于 Penn Treebank,其在语言建模中是更接近实际的基准。 WikiText-2 由大约两百万个从维基百科文章中提取的单词构成。 ? 机器翻译 机器翻译是将句子从源语言转换为不同的目标语言的任务。
展示了 DARTS 在 CIFAR-10 和 PTB 上学到的架构分别可迁移至 ImageNet 和 WikiText-2。 ? 图 1:DARTS 概述:(a)一开始并不知道对边缘的操作。 我们在 CIFAR-10、ImageNet、Penn Treebank 和 WikiText-2 上进行了大量实验,结果表明我们的算法在发现高性能的图像分类卷积架构和语言建模循环架构中表现优异,且该算法的速度比之前最优的不可微方法快了几个数量级
., 2018)进行控制变量来研究这些问题,使用两个语言模型数据集(Penn Treebank 和 WikiText-2)作为对比基准。 在两个标准的数据集(Penn Treebank 和 WikiText-2)上,我们发现模型能够平均利用大约 200 个单词组成的上下文,但是能明显地将近邻的上下文(最近的 50 个单词)和过去的长距离上下文区分开来
图3:在 µP 中参数化并在 WikiText-2 上训练的不同宽度的 transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化规模和学习率方案保持稳定。 图4:在 µP 中参数化并在 Wikitext-2 上训练的不同大小的 transformer。
下图是由维基百科文章构成的常用 WikiText-2 数据集的示例。 ? WikiText-2 语言建模数据集的示例。 (来源: Salesforce) WikiText-2:https://einstein.ai/research/the-wikitext-long-term-dependency-language-modeling-dataset
在 PTB、WikiText-2 和 WikiText-103 上的实验结果表明 CAS 能在所有问题上实现在 20.42 与 34.11 之间的困惑度,即相比于之前最佳的 LSTM 方法,困惑度平均能提升 我们在 PTB、WikiText-2 和 WikiText-103 这三个常用语言模型数据集上评估了 CAS。
图3:在 µP 中参数化并在 WikiText-2 上训练的不同宽度的 transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化规模和学习率方案保持稳定。 图4:在 µP 中参数化并在 Wikitext-2 上训练的不同大小的 transformer。
图 3:在 µP 中参数化并在 WikiText-2 上训练的不同宽度的 transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化规模和学习率方案保持稳定。 图 4:在 µP 中参数化并在 Wikitext-2 上训练的不同大小的 transformer。
可逆模型在 Penn TreeBank 数据集 [14] 上的词级语言建模任务中得到了与传统的 LSTM 模型和 GRU 模型相似的性能,在 WikiText-2 数据集 [15] 上比传统模型困惑度落后 表 2: WikiText-2 词级语言建模上的验证困惑度。在没有限制的情况下,当遗忘被限制在 2 位、3 位和 5 位比特时,每个隐藏单元每个时间步的结果显示如表。 ?
如果将Penn Treebank与WikiText-2进行比较,后者的规模和数量几乎是前者的两倍。相比之下,WikiText -103比其他版本大110倍。
首先,以下代码将导入 GluonNLP,并加载 Wikitext-2 数据集: >>> import gluonnlp as nlp >>> train = nlp.data.WikiText2(segment