首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    学界 | 超越Softmax瓶颈:一种高秩RNN语言模型

    我们提出了一种解决这一问题的简单且有效的方法,并且在 Penn Treebank 和 WikiText-2 上分别将当前最佳的困惑度水平改善到了 47.69 和 40.68。 表 2:在 WikiText-2 上的单个模型困惑度。基准结果是从 Merity et al. (2017) 和 Krause et al. (2017) 获得的。† 表示使用了动态评估。 表 4:在 Penn Treebank 和 WikiText-2 上的 ablation study,没有使用微调或动态评估。

    1.2K50发布于 2018-05-10
  • 来自专栏新智元

    一文读完GitHub30+篇顶级机器学习论文(附摘要和论文下载地址)

    本文提出了一个简单有效的解决方法,并且将Penn Treebank和WikiText-2中的perplexities分别提高到47.69和40.68。 动态评估将Penn Treebank和WikiText-2数据集上的perplexities分别提高到51.1和44.3。 使用这些和其他正则化策略,本文在两个数据集上实现了state-of-the-art word level perplexities:Penn Treebank上的57.3和WikiText-2上的65.8 在结合我们提出的模型探索神经缓存的有效性时,在Penn Treebank上实现了更低的52.8的state-of-the-art word level perplexities,而在WikiText-2 本文评估了提出的模型,并在Penn Treebank和Wikitext-2上达到了当前最优结果。

    4.1K110发布于 2018-03-21
  • 来自专栏自然语言处理(NLP)论文速递

    ICLR2024,微软 | 提出LLM剪枝方法-SliceGPT,参数减少25%,保持99%的性能!

    实验结果 生成任务 作者对经过 SliceGPT 和 SparseGPT 剪裁后大小不同的 OPT 和 LLAMA-2 模型系列在 WikiText-2 数据集中进行了性能评估。 图中上行显示的是 SliceGPT 在 WikiText-2 中的平均准确率,下行显示的是 SliceGPT 在 Alpaca 的平均准确率。 可以发现,RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异,模型在 Alpaca 数据集中展现了更好的性能。 作者还发现 Phi-2 无法在 WikiText-2 数据集中,从被剪裁过的模型中恢复原有准确率,但在 Alpaca 数据集中能恢复几个百分点的准确率。

    1K10编辑于 2024-01-31
  • 来自专栏磐创AI技术团队的专栏

    transformers示例

    此类文本的一个很好的例子是WikiText-2数据集(https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset GPT-2/GPT和因果语言建模 以下示例对WikiText-2上的GPT-2进行了微调。我们正在使用原始的WikiText-2(在标记化之前没有替换任何标记)。这里的损失是因果语言建模的损失。 RoBERTa / BERT和掩码语言建模 以下示例对WikiText-2上的RoBERTa进行了微调。在这里,我们也使用原始的WikiText-2

    1.9K10发布于 2020-03-31
  • 来自专栏机器之心

    大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增

    实验结果 生成任务 作者对经过 SliceGPT 和 SparseGPT 剪裁后大小不同的 OPT 和 LLAMA-2 模型系列在 WikiText-2 数据集中进行了性能评估。 图中上行显示的是 SliceGPT 在 WikiText-2 中的平均准确率,下行显示的是 SliceGPT 在 Alpaca 的平均准确率。 可以发现,RFT 的结果在 WikiText-2 和 Alpaca 数据集存在显著差异,模型在 Alpaca 数据集中展现了更好的性能。 作者还发现 Phi-2 无法在 WikiText-2 数据集中,从被剪裁过的模型中恢复原有准确率,但在 Alpaca 数据集中能恢复几个百分点的准确率。

    1.1K10编辑于 2024-02-06
  • 来自专栏机器之心

    自然语言处理全家福:纵览当前NLP中的任务、数据、模型与论文

    Treebank 4.指代消歧 CoNLL 2012 5.依存解析 Penn Treebank 6.对话 第二对话状态追踪挑战赛 7.域适应 多领域情感数据集 8.语言建模 Penn Treebank WikiText WikiText-2 WikiText-2(《Pointer Sentinel Mixture Models》)相比于 Penn Treebank,其在语言建模中是更接近实际的基准。 WikiText-2 由大约两百万个从维基百科文章中提取的单词构成。 ? 机器翻译 机器翻译是将句子从源语言转换为不同的目标语言的任务。

    1.6K30发布于 2018-07-26
  • DragonMemory:16倍语义压缩,为RAG应用瘦身

    项目作者freeky78在本地测试中获得了不错的结果:在Wikitext-2数据集上,压缩后仍能保持约0.90的余弦相似度;技术文档和长文本的相似度也在0.85-0.89之间。

    2210编辑于 2026-06-23
  • 来自专栏人工智能前沿讲习

    精选论文 | 图深度学习【附打包下载】

    在CIFAR-10,ImageNet,Penn Treebank和WikiText-2上进行了大量实验,表明本文的算法擅长于发现用于图像分类的高性能卷积结构和用于语言建模的循环神经网络结构,同时比现有技术的非微分搜索技术要快几个数量级

    73930发布于 2020-05-14
  • 来自专栏新智元

    大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了

    有了比赛规则之后,研究人员招募了200多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是WikiText-103和WikiText-2以及Penn Treebank,代表了多年来用于评估语言模型的高质量文本数据 数据集 参与测评的包含400多个在WikiText-103(WT103)、WikiText-2(WT2)和Penn Treebank(PTB)上评估的语言模型,其中约60%可用于分析。

    44610编辑于 2024-03-25
  • 来自专栏进击的Coder

    自然语言处理全家福:纵览当前NLP中的任务、数据、模型与论文

    Treebank 4.指代消歧 CoNLL 2012 5.依存解析 Penn Treebank 6.对话 第二对话状态追踪挑战赛 7.域适应 多领域情感数据集 8.语言建模 Penn Treebank WikiText WikiText-2 WikiText-2(《Pointer Sentinel Mixture Models》)相比于 Penn Treebank,其在语言建模中是更接近实际的基准。 WikiText-2 由大约两百万个从维基百科文章中提取的单词构成。 ? 机器翻译 机器翻译是将句子从源语言转换为不同的目标语言的任务。

    3.2K00发布于 2018-07-31
  • 来自专栏机器之心

    指数级加速架构搜索:CMU提出基于梯度下降的可微架构搜索方法

    展示了 DARTS 在 CIFAR-10 和 PTB 上学到的架构分别可迁移至 ImageNet 和 WikiText-2。 ? 图 1:DARTS 概述:(a)一开始并不知道对边缘的操作。 我们在 CIFAR-10、ImageNet、Penn Treebank 和 WikiText-2 上进行了大量实验,结果表明我们的算法在发现高性能的图像分类卷积架构和语言建模循环架构中表现优异,且该算法的速度比之前最优的不可微方法快了几个数量级

    94620发布于 2018-07-26
  • 来自专栏机器之心

    ACL 2018 | 神经语言模型如何利用上下文信息:长距离上下文的词序并不重要

    ., 2018)进行控制变量来研究这些问题,使用两个语言模型数据集(Penn Treebank 和 WikiText-2)作为对比基准。 在两个标准的数据集(Penn Treebank 和 WikiText-2)上,我们发现模型能够平均利用大约 200 个单词组成的上下文,但是能明显地将近邻的上下文(最近的 50 个单词)和过去的长距离上下文区分开来

    94950发布于 2018-06-08
  • 来自专栏大数据文摘

    单个GPU也能训练GPT-3!快来看看HP调优新范式吧!

    图3:在 µP 中参数化并在 WikiText-2 上训练的不同宽度的 transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化规模和学习率方案保持稳定。 图4:在 µP 中参数化并在 Wikitext-2 上训练的不同大小的 transformer。

    1.2K30编辑于 2022-04-11
  • 来自专栏机器之心

    NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立

    下图是由维基百科文章构成的常用 WikiText-2 数据集的示例。 ? WikiText-2 语言建模数据集的示例。 (来源: Salesforce) WikiText-2:https://einstein.ai/research/the-wikitext-long-term-dependency-language-modeling-dataset

    92830发布于 2018-07-26
  • 来自专栏机器之心

    进一步改进GPT和BERT:使用Transformer的语言模型

    在 PTB、WikiText-2 和 WikiText-103 上的实验结果表明 CAS 能在所有问题上实现在 20.42 与 34.11 之间的困惑度,即相比于之前最佳的 LSTM 方法,困惑度平均能提升 我们在 PTB、WikiText-2 和 WikiText-103 这三个常用语言模型数据集上评估了 CAS。

    1.4K30发布于 2019-05-14
  • 来自专栏大数据文摘

    你还在纠结单个GPU怎么训练GPT-3吗?快来看看HP调优新范式吧!

    图3:在 µP 中参数化并在 WikiText-2 上训练的不同宽度的 transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化规模和学习率方案保持稳定。 图4:在 µP 中参数化并在 Wikitext-2 上训练的不同大小的 transformer。

    97510编辑于 2022-05-12
  • 来自专栏机器之心

    单个GPU无法训练GPT-3,但有了这个,你能调优超参数了

    图 3:在 µP 中参数化并在 WikiText-2 上训练的不同宽度的 transformer。随着模型宽度的增加,最优学习率、交叉熵温度、初始化规模和学习率方案保持稳定。 图 4:在 µP 中参数化并在 Wikitext-2 上训练的不同大小的 transformer。

    1.3K50编辑于 2022-03-09
  • 来自专栏机器之心

    NIPS 2018 | 将RNN内存占用缩小90%:多伦多大学提出可逆循环神经网络

    可逆模型在 Penn TreeBank 数据集 [14] 上的词级语言建模任务中得到了与传统的 LSTM 模型和 GRU 模型相似的性能,在 WikiText-2 数据集 [15] 上比传统模型困惑度落后 表 2: WikiText-2 词级语言建模上的验证困惑度。在没有限制的情况下,当遗忘被限制在 2 位、3 位和 5 位比特时,每个隐藏单元每个时间步的结果显示如表。 ?

    84740发布于 2018-12-11
  • 来自专栏DeepHub IMBA

    20用于深度学习训练和研究的数据集

    如果将Penn Treebank与WikiText-2进行比较,后者的规模和数量几乎是前者的两倍。相比之下,WikiText -103比其他版本大110倍。

    1.1K20编辑于 2023-09-14
  • 来自专栏机器之心

    资源 | DMLC团队发布GluonCV和GluonNLP:两种简单易用的DL工具箱

    首先,以下代码将导入 GluonNLP,并加载 Wikitext-2 数据集: >>> import gluonnlp as nlp >>> train = nlp.data.WikiText2(segment

    1.1K80发布于 2018-05-08
领券