首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    进一步改进GPT和BERT:使用Transformer的语言模型

    在 PTB、WikiText-2 和 WikiText-103 上的实验结果表明 CAS 能在所有问题上实现在 20.42 与 34.11 之间的困惑度,即相比于之前最佳的 LSTM 方法,困惑度平均能提升 举个例子,GPT 或 BERT 都没有针对 WikiText 进行调整,也没有直接以最小化困惑度为目标。 我们在 PTB、WikiText-2 和 WikiText-103 这三个常用语言模型数据集上评估了 CAS。 但是,更新所有权重可能导致过拟合,因为 WikiText 或 Penn Tree Bank 之类的数据集比用于训练 GPT 和 BERT 的数据小一个数量级以上。 算法 2:协调式架构搜索 实验 为了体现使用协调式搜索找到的 Transformer 架构的有效性,我们在 WikiText 和 Penn TreeBank 数据集上进行了实验。

    1.3K30发布于 2019-05-14
  • 来自专栏DeepHub IMBA

    使用ExLlamaV2量化并运行EXL2模型

    我们将使用wikitext数据集,直接下载测试文件如下: wget https://huggingface.co/datasets/wikitext/resolve/9a9e482b5987f9d25b3a9b2883fc6cc9fd8071b3 /wikitext-103-v1/wikitext-test.parquet 准备工作完成后,就可以利用ExLlamaV2库提供的convert.py脚本来进行量化了,主要的参数是: -i:以HF格式( deephub-quant python python exllamav2/convert.py \ -i base_model \ -o deephub-quant \ -c wikitext-test.parquet

    1.1K10编辑于 2023-11-22
  • 来自专栏新智元

    首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型?

    WikiText 数据集上,他们创造了新的性能记录。同时,在谷歌 Billion Word 基准上,单个GPU运行的横向对比中的表现也做到了最好。 在论文摘要中,他们写道:“在WikiText-103上,我们创造了新的记录。同时,在谷歌 Billion Word 基准上,我们也获得了单个 GPU 的最佳表现。 测试结果 研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word(GBW)进行测试,并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下: ? 上图是WikiText-103(左)和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。 结果显示,我们的门卷积神经网络在WikiText-103 上打破了记录,在更大型的谷歌Billion Word 基准中,单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。

    1.3K50发布于 2018-03-26
  • 来自专栏机器之心

    CMU、谷歌提出Transformer-XL:学习超长上下文关系

    Transformer-XL 提升了当前最佳(SoTA)的结果,它在 enwiki8 上将 bpc 从 1.06 提升到 0.99,在 text8 上将 bpc 从 1.13 提升到 1.08,在 WikiText 在这个配置下,Transformer-XL 在 WikiText-103 中学到 900 个词的 RECL,而循环网络和 Transformer 分别只学到了 500 和 128 个词。 此外,我们还提升了 bpc 和困惑度的当前最佳结果,在 enwiki8 上 bpc 从 1.06 提升至 0.99,在 text8 上从 1.13 提升至 1.08,在 WikiText-103 上困惑度从 表 1:与在 WikiText-103 上得到的当前最佳结果进行对比。 ? 表 2:与在 enwiki8 上得到的当前最佳结果进行对比。 ?

    1K20发布于 2019-04-30
  • 来自专栏机器之心

    学界 | DeepMind提出关系RNN:记忆模块RMC解决关系推理难题

    该方法在强化学习领域(如 Mini PacMan)、程序评估和语言建模上获得了很大进步,在 WikiText-103、Project Gutenberg 和 GigaWord 数据集上获得了当前最优的结果 最后,我们在一系列任务上对 RMC 进行测试,这些任务可从跨序列信息的更强大关系推理中受益,测试结果表明在强化学习领域(如 Mini PacMan)、程序评估和语言建模上获得了很大进步,在 WikiText 之后我们应用 RMC 处理一系列任务(这些任务可能从更显著的记忆交互中受益),从而得到了潜在增长的记忆容量,可处理随时间的关系推理:在 Wikitext-103、Project Gutenberg、GigaWord 表 2:在 WikiText-103、Project Gutenberg 和 GigaWord v5 数据集上的验证困惑度和测试困惑度。 本文为机器之心编译,转载请联系本公众号获得授权。

    86620发布于 2018-07-26
  • 来自专栏机器之心

    LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体

    image.png 语言模型 该研究使用标准 WikiText-103(Merity 等,2017)数据集进行实验。 WikiText-103 数据集由维基百科的长文组成;训练集包含大约 28K 篇文章、总共 103M 个单词。这将产生约 3600 个单词的上下文文本块。 下表 2 展示了在该研究更新规则下,WikiText-103 语言模型的困惑度结果。 image.png 在下表 3 中,使用该研究更新规则下的 Transformer(medium 配置),在 WikiText-103 语言模型的困惑度结果。 image.png 在下表 4 中,WikiText-103 语言模型在没有截断上下文的情况下训练和评估模型的困惑度,这与上表 2 中上下文窗口受到限制的情况相反。

    57430发布于 2021-03-30
  • 来自专栏新智元

    DeepMind提出关系RNN:构建关系推理模块,强化学习利器

    新智元编译 来源:arxiv 编辑:肖琴 【新智元导读】传统的记忆架构做关系推理时有困难,DeepMind和伦敦大学学院的这篇论文提出关系推理模块RMC,能够在序列信息中执行关系推理,在WikiText 最后,研究者在一系列任务上测试RMC,这些任务可以从跨序列信息的更强大的关系推理中获益,并且在RL领域(例如Mini PacMan)、程序评估和语言建模中显示出巨大的受益,在WikiText-103、Project 然后,我们将RMC应用到一系列任务中,这些任务可能会从更显式的memory-memory 交互中获益,因此,可能会增加随时间推移的的关系推理能力:在Wikitext-103、Project Gutenberg 表2:WikiText-103、Project Gutenberg和GigaWord v5数据集上的验证和测试困惑度 总的来说,我们的结果显示,记忆交互的显式建模还提高强化学习任务,以及程序评估、比较推理和语言建模的性能

    97430发布于 2018-06-22
  • 来自专栏AI工程落地

    大语言模型--开源数据集

    id': '42c027e4ff9730fbb3de84c1af0d2c506e41c3e4', } article:CNN和Daily Mail上面的文章 highlights:文章对应的摘要和总结 wikitext 论文地址:[1609.07843] Pointer Sentinel Mixture Models (arxiv.org) 数据集地址:wikitext · Datasets at Hugging Face 包含wikitext-103-raw-v1、wikitext-103-v1、wikitext-2-raw-v1、wikitext-2-v1四个子集,每个子集包含train、validation、test ', } text:wikitext上面的文章 C4 论文地址:https://arxiv.org/abs/1910.10683 数据集地址:allenai/c4 · Datasets at Hugging

    1.9K20编辑于 2024-09-18
  • 来自专栏毛利学Python

    【小白学习PyTorch教程】十七、 PyTorch 中 数据集torchvision和torchtext

    使用以下类加载这些数据torchtext:torchtext.datasets.IMDB() WikiText2 WikiText2语言建模数据集是一个超过 1 亿个标记的集合。 可以从torchtext以下位置加载此数据:torchtext.datasets.WikiText2() 除了上述两个流行的数据集,torchtext库中还有更多可用的数据集,例如 SST、TREC、SNLI 、MultiNLI、WikiText-2、WikiText103、PennTreebank、Multi30k 等。

    1.6K20编辑于 2022-08-18
  • huggingface镜像网站hf使用

    gpt2 --local-dir gpt2Copy 3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext /hfd.sh wikitext --dataset --tool aria2c -x 4Copy 方法四:使用环境变量(非侵入式) 非侵入式,能解决大部分情况。

    5.9K21编辑于 2025-07-20
  • 来自专栏轩辕镜像

    国内 huggingface 镜像——帮助 AI 开发者快速稳定的下载模型数据集

    gpt2 --local-dir gpt2Copy 3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext /hfd.sh wikitext --dataset --tool aria2c -x 4Copy 方法三:使用环境变量(非侵入式) 非侵入式,能解决大部分情况。

    10.2K10编辑于 2024-09-29
  • 来自专栏DevOps

    【hf-mirror】HuggingFace镜像站助你实现模型自由

    gpt2 --local-dir gpt2Copy 3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext /hfd.sh wikitext --dataset --tool aria2c -x 4Copy 方法四:使用环境变量(非侵入式) 非侵入式,能解决大部分情况。

    20.9K41编辑于 2024-04-15
  • 来自专栏机器学习算法与Python学习

    用最简陋的LSTM,超越各种Transformer

    然后,就在两个数据集enwik8和WikiText-103试一试吧。 其中,enwik8数据集包含了上亿字节维基百科XML转储。 另一场比赛,在WikiText-103数据集上进行,测试的是Tokenization (分词) 。结果认为,SHA-RNN可以有效抵御Tokenization攻击。 成功了。 开源了

    2.2K40发布于 2019-12-02
  • 来自专栏CDA数据分析师

    机器如何拥有记忆?DeepMind最新解读,发布最新长程记忆模型和建模基准

    WikiText-103是被广泛使用的长程语言模型。由英文维基百科文章组成,由Salesforce AI的研究人员开发。 PG-19的大小是之前的语言建模基准测试的两倍以上,有的文本长度是WikiText-103的10倍以上。 △用粗压缩颗粒状短期记忆来描述过去 DeepMind发现,在不使用额外训练数据集的情况下,Compressive Transformer在为WikiText-103和Enwik8这两个基准建立自然语言模型上

    75811发布于 2020-02-21
  • 来自专栏机器之心

    想效仿英伟达50分钟训练 BERT?只有GPU还不够……

    将该语言模型应用于 WikiText103 和 LAMBADA 数据集均可实现当前最优结果:它在 WikiText103 数据集上的困惑度达到 10.8,而之前 SOTA 的困惑度为 16.4;它在 LAMBADA 研究者在 WikiText103 数据集和 LAMBADA 数据集上分析了该研究训练模型的准确率,发现随着模型规模的增大,模型在 WikiText103 数据集上的困惑度有所下降,在 LAMBADA 数据集上的准确率有所上升

    73910发布于 2019-10-08
  • 来自专栏澜舟科技 NLP

    NLP 论文领读|文本生成模型退化怎么办?SimCTG 告诉你答案

    文档生成方面,基于 GPT2-small(12 层,12 个注意力头,117M 参数)模型和 Wikitext-103 数据集进行试验。 Wikitext-103 是一个文档级数据集,该数据集包含了大量的维基百科文章,目前已被广泛用于评估大规模语言模型。 Wikitext103 测试集评测结果 表 1 展示了在 Wikitext103 上的文档生成实验结果。 人工评测 文档生成方面,作者从 Wikitext-103 的测试集中随机选择了 200 个长度为 32 的前缀,采用不同的模型 (MLE、非似然和 SimCTG),以及两种解码方法(核采样和对比搜索)来生成长度为

    1.6K20编辑于 2022-06-30
  • 来自专栏量子位

    机器如何拥有记忆?DeepMind最新解读,发布最新长程记忆模型和建模基准

    WikiText-103是被广泛使用的长程语言模型。由英文维基百科文章组成,由Salesforce AI的研究人员开发。 PG-19的大小是之前的语言建模基准测试的两倍以上,有的文本长度是WikiText-103的10倍以上。 ? △用粗压缩颗粒状短期记忆来描述过去 DeepMind发现,在不使用额外训练数据集的情况下,Compressive Transformer在为WikiText-103和Enwik8这两个基准建立自然语言模型上

    63740发布于 2020-02-21
  • 来自专栏DeepHub IMBA

    20用于深度学习训练和研究的数据集

    WikiText:一个大规模的语言建模数据集,包含来自维基百科文章的超过1亿个令牌。如果将Penn Treebank与WikiText-2进行比较,后者的规模和数量几乎是前者的两倍。 相比之下,WikiText -103比其他版本大110倍。 Penn Treebank:一个广泛用于自然语言处理任务的数据集,Penn Treebank包含来自华尔街日报的解析文本。

    1K20编辑于 2023-09-14
  • 来自专栏机器之心

    学界 | 超越Softmax瓶颈:一种高秩RNN语言模型

    我们提出了一种解决这一问题的简单且有效的方法,并且在 Penn Treebank 和 WikiText-2 上分别将当前最佳的困惑度水平改善到了 47.69 和 40.68。 表 2:在 WikiText-2 上的单个模型困惑度。基准结果是从 Merity et al. (2017) 和 Krause et al. (2017) 获得的。† 表示使用了动态评估。 表 4:在 Penn Treebank 和 WikiText-2 上的 ablation study,没有使用微调或动态评估。

    1.1K50发布于 2018-05-10
  • 来自专栏新智元

    大模型增速远超摩尔定律!MIT最新研究:人类快要喂不饱AI了

    有了比赛规则之后,研究人员招募了200多个语言模型来参加比赛,同时为了确保公平公正,比赛所用的数据集是WikiText-103和WikiText-2以及Penn Treebank,代表了多年来用于评估语言模型的高质量文本数据 数据集 参与测评的包含400多个在WikiText-103(WT103)、WikiText-2(WT2)和Penn Treebank(PTB)上评估的语言模型,其中约60%可用于分析。

    37710编辑于 2024-03-25
领券