搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
进一步改进GPT和BERT：使用Transformer的语言模型
在 PTB、WikiText-2 和 WikiText-103 上的实验结果表明 CAS 能在所有问题上实现在 20.42 与 34.11 之间的困惑度，即相比于之前最佳的 LSTM 方法，困惑度平均能提升举个例子，GPT 或 BERT 都没有针对 WikiText 进行调整，也没有直接以最小化困惑度为目标。我们在 PTB、WikiText-2 和 WikiText-103 这三个常用语言模型数据集上评估了 CAS。但是，更新所有权重可能导致过拟合，因为 WikiText 或 Penn Tree Bank 之类的数据集比用于训练 GPT 和 BERT 的数据小一个数量级以上。算法 2：协调式架构搜索实验为了体现使用协调式搜索找到的 Transformer 架构的有效性，我们在 WikiText 和 Penn TreeBank 数据集上进行了实验。
1.3K30发布于 2019-05-14
来自专栏DeepHub IMBA
使用ExLlamaV2量化并运行EXL2模型
我们将使用wikitext数据集，直接下载测试文件如下: wget https://huggingface.co/datasets/wikitext/resolve/9a9e482b5987f9d25b3a9b2883fc6cc9fd8071b3 /wikitext-103-v1/wikitext-test.parquet 准备工作完成后，就可以利用ExLlamaV2库提供的convert.py脚本来进行量化了，主要的参数是： -i:以HF格式( deephub-quant python python exllamav2/convert.py \ -i base_model \ -o deephub-quant \ -c wikitext-test.parquet
1.1K10编辑于 2023-11-22
来自专栏新智元
首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？
在 WikiText 数据集上，他们创造了新的性能记录。同时，在谷歌 Billion Word 基准上，单个GPU运行的横向对比中的表现也做到了最好。在论文摘要中，他们写道：“在WikiText-103上，我们创造了新的记录。同时，在谷歌 Billion Word 基准上，我们也获得了单个 GPU 的最佳表现。测试结果研究者基于两个大型数据集——WikiText-103和谷歌 Billion Word（GBW）进行测试，并与几个强大的 LSTM 和RNN 模型性能进行横向对比。得到的结果如下： ? 上图是WikiText-103（左）和 Google Billion Word (右) 的在不同激活机制模型下的学习曲线。结果显示，我们的门卷积神经网络在WikiText-103 上打破了记录，在更大型的谷歌Billion Word 基准中，单一GPU上的模型训练表现也优于其他几个强大的 LSTM 模型。
1.3K50发布于 2018-03-26
来自专栏机器之心
CMU、谷歌提出Transformer-XL：学习超长上下文关系
Transformer-XL 提升了当前最佳（SoTA）的结果，它在 enwiki8 上将 bpc 从 1.06 提升到 0.99，在 text8 上将 bpc 从 1.13 提升到 1.08，在 WikiText 在这个配置下，Transformer-XL 在 WikiText-103 中学到 900 个词的 RECL，而循环网络和 Transformer 分别只学到了 500 和 128 个词。此外，我们还提升了 bpc 和困惑度的当前最佳结果，在 enwiki8 上 bpc 从 1.06 提升至 0.99，在 text8 上从 1.13 提升至 1.08，在 WikiText-103 上困惑度从表 1：与在 WikiText-103 上得到的当前最佳结果进行对比。 ? 表 2：与在 enwiki8 上得到的当前最佳结果进行对比。 ?
1K20发布于 2019-04-30
来自专栏机器之心
学界 | DeepMind提出关系RNN：记忆模块RMC解决关系推理难题
该方法在强化学习领域（如 Mini PacMan）、程序评估和语言建模上获得了很大进步，在 WikiText-103、Project Gutenberg 和 GigaWord 数据集上获得了当前最优的结果最后，我们在一系列任务上对 RMC 进行测试，这些任务可从跨序列信息的更强大关系推理中受益，测试结果表明在强化学习领域（如 Mini PacMan）、程序评估和语言建模上获得了很大进步，在 WikiText 之后我们应用 RMC 处理一系列任务（这些任务可能从更显著的记忆交互中受益），从而得到了潜在增长的记忆容量，可处理随时间的关系推理：在 Wikitext-103、Project Gutenberg、GigaWord 表 2：在 WikiText-103、Project Gutenberg 和 GigaWord v5 数据集上的验证困惑度和测试困惑度。本文为机器之心编译，转载请联系本公众号获得授权。
86620发布于 2018-07-26
来自专栏机器之心
LSTM之父重提30年前的「快速权重存储系统」：线性Transformer只是它的一种变体
image.png 语言模型该研究使用标准 WikiText-103（Merity 等，2017）数据集进行实验。 WikiText-103 数据集由维基百科的长文组成；训练集包含大约 28K 篇文章、总共 103M 个单词。这将产生约 3600 个单词的上下文文本块。下表 2 展示了在该研究更新规则下，WikiText-103 语言模型的困惑度结果。 image.png 在下表 3 中，使用该研究更新规则下的 Transformer（medium 配置），在 WikiText-103 语言模型的困惑度结果。 image.png 在下表 4 中，WikiText-103 语言模型在没有截断上下文的情况下训练和评估模型的困惑度，这与上表 2 中上下文窗口受到限制的情况相反。
57430发布于 2021-03-30
来自专栏新智元
DeepMind提出关系RNN：构建关系推理模块，强化学习利器
新智元编译来源：arxiv 编辑：肖琴【新智元导读】传统的记忆架构做关系推理时有困难，DeepMind和伦敦大学学院的这篇论文提出关系推理模块RMC，能够在序列信息中执行关系推理，在WikiText 最后，研究者在一系列任务上测试RMC，这些任务可以从跨序列信息的更强大的关系推理中获益，并且在RL领域（例如Mini PacMan）、程序评估和语言建模中显示出巨大的受益，在WikiText-103、Project 然后，我们将RMC应用到一系列任务中，这些任务可能会从更显式的memory-memory 交互中获益，因此，可能会增加随时间推移的的关系推理能力：在Wikitext-103、Project Gutenberg 表2：WikiText-103、Project Gutenberg和GigaWord v5数据集上的验证和测试困惑度总的来说，我们的结果显示，记忆交互的显式建模还提高强化学习任务，以及程序评估、比较推理和语言建模的性能
97430发布于 2018-06-22
来自专栏AI工程落地
大语言模型--开源数据集
id': '42c027e4ff9730fbb3de84c1af0d2c506e41c3e4', } article：CNN和Daily Mail上面的文章 highlights：文章对应的摘要和总结 wikitext 论文地址：[1609.07843] Pointer Sentinel Mixture Models (arxiv.org) 数据集地址：wikitext · Datasets at Hugging Face 包含wikitext-103-raw-v1、wikitext-103-v1、wikitext-2-raw-v1、wikitext-2-v1四个子集，每个子集包含train、validation、test ', } text：wikitext上面的文章 C4 论文地址：https://arxiv.org/abs/1910.10683 数据集地址：allenai/c4 · Datasets at Hugging
1.9K20编辑于 2024-09-18
来自专栏毛利学Python
【小白学习PyTorch教程】十七、 PyTorch 中数据集torchvision和torchtext
使用以下类加载这些数据torchtext：torchtext.datasets.IMDB() WikiText2 WikiText2语言建模数据集是一个超过 1 亿个标记的集合。可以从torchtext以下位置加载此数据：torchtext.datasets.WikiText2() 除了上述两个流行的数据集，torchtext库中还有更多可用的数据集，例如 SST、TREC、SNLI 、MultiNLI、WikiText-2、WikiText103、PennTreebank、Multi30k 等。
1.6K20编辑于 2022-08-18
huggingface镜像网站hf使用
gpt2 --local-dir gpt2Copy 3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext /hfd.sh wikitext --dataset --tool aria2c -x 4Copy 方法四：使用环境变量（非侵入式）非侵入式，能解决大部分情况。
5.9K21编辑于 2025-07-20
来自专栏轩辕镜像
国内 huggingface 镜像——帮助 AI 开发者快速稳定的下载模型数据集
gpt2 --local-dir gpt2Copy 3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext /hfd.sh wikitext --dataset --tool aria2c -x 4Copy 方法三：使用环境变量（非侵入式）非侵入式，能解决大部分情况。
10.2K10编辑于 2024-09-29
来自专栏DevOps
【hf-mirror】HuggingFace镜像站助你实现模型自由
gpt2 --local-dir gpt2Copy 3.2 下载数据集 huggingface-cli download --repo-type dataset --resume-download wikitext /hfd.sh wikitext --dataset --tool aria2c -x 4Copy 方法四：使用环境变量（非侵入式）非侵入式，能解决大部分情况。
20.9K41编辑于 2024-04-15
来自专栏机器学习算法与Python学习
用最简陋的LSTM，超越各种Transformer
然后，就在两个数据集enwik8和WikiText-103试一试吧。其中，enwik8数据集包含了上亿字节维基百科XML转储。另一场比赛，在WikiText-103数据集上进行，测试的是Tokenization (分词) 。结果认为，SHA-RNN可以有效抵御Tokenization攻击。成功了。开源了
2.2K40发布于 2019-12-02
来自专栏CDA数据分析师
机器如何拥有记忆？DeepMind最新解读，发布最新长程记忆模型和建模基准
WikiText-103是被广泛使用的长程语言模型。由英文维基百科文章组成，由Salesforce AI的研究人员开发。 PG-19的大小是之前的语言建模基准测试的两倍以上，有的文本长度是WikiText-103的10倍以上。 △用粗压缩颗粒状短期记忆来描述过去 DeepMind发现，在不使用额外训练数据集的情况下，Compressive Transformer在为WikiText-103和Enwik8这两个基准建立自然语言模型上
75811发布于 2020-02-21
来自专栏机器之心
想效仿英伟达50分钟训练 BERT？只有GPU还不够……
将该语言模型应用于 WikiText103 和 LAMBADA 数据集均可实现当前最优结果：它在 WikiText103 数据集上的困惑度达到 10.8，而之前 SOTA 的困惑度为 16.4；它在 LAMBADA 研究者在 WikiText103 数据集和 LAMBADA 数据集上分析了该研究训练模型的准确率，发现随着模型规模的增大，模型在 WikiText103 数据集上的困惑度有所下降，在 LAMBADA 数据集上的准确率有所上升
73910发布于 2019-10-08
来自专栏澜舟科技 NLP
NLP 论文领读｜文本生成模型退化怎么办？SimCTG 告诉你答案
文档生成方面，基于 GPT2-small（12 层，12 个注意力头，117M 参数）模型和 Wikitext-103 数据集进行试验。 Wikitext-103 是一个文档级数据集，该数据集包含了大量的维基百科文章，目前已被广泛用于评估大规模语言模型。 Wikitext103 测试集评测结果表 1 展示了在 Wikitext103 上的文档生成实验结果。人工评测文档生成方面，作者从 Wikitext-103 的测试集中随机选择了 200 个长度为 32 的前缀，采用不同的模型 (MLE、非似然和 SimCTG)，以及两种解码方法（核采样和对比搜索）来生成长度为
1.6K20编辑于 2022-06-30
来自专栏量子位
机器如何拥有记忆？DeepMind最新解读，发布最新长程记忆模型和建模基准
WikiText-103是被广泛使用的长程语言模型。由英文维基百科文章组成，由Salesforce AI的研究人员开发。 PG-19的大小是之前的语言建模基准测试的两倍以上，有的文本长度是WikiText-103的10倍以上。 ? △用粗压缩颗粒状短期记忆来描述过去 DeepMind发现，在不使用额外训练数据集的情况下，Compressive Transformer在为WikiText-103和Enwik8这两个基准建立自然语言模型上
63740发布于 2020-02-21
来自专栏DeepHub IMBA
20用于深度学习训练和研究的数据集
WikiText:一个大规模的语言建模数据集，包含来自维基百科文章的超过1亿个令牌。如果将Penn Treebank与WikiText-2进行比较，后者的规模和数量几乎是前者的两倍。相比之下，WikiText -103比其他版本大110倍。 Penn Treebank:一个广泛用于自然语言处理任务的数据集，Penn Treebank包含来自华尔街日报的解析文本。
1K20编辑于 2023-09-14
来自专栏机器之心
学界 | 超越Softmax瓶颈：一种高秩RNN语言模型
我们提出了一种解决这一问题的简单且有效的方法，并且在 Penn Treebank 和 WikiText-2 上分别将当前最佳的困惑度水平改善到了 47.69 和 40.68。表 2：在 WikiText-2 上的单个模型困惑度。基准结果是从 Merity et al. (2017) 和 Krause et al. (2017) 获得的。† 表示使用了动态评估。表 4：在 Penn Treebank 和 WikiText-2 上的 ablation study，没有使用微调或动态评估。
1.1K50发布于 2018-05-10
来自专栏新智元
大模型增速远超摩尔定律！MIT最新研究：人类快要喂不饱AI了
有了比赛规则之后，研究人员招募了200多个语言模型来参加比赛，同时为了确保公平公正，比赛所用的数据集是WikiText-103和WikiText-2以及Penn Treebank，代表了多年来用于评估语言模型的高质量文本数据数据集参与测评的包含400多个在WikiText-103（WT103）、WikiText-2（WT2）和Penn Treebank（PTB）上评估的语言模型，其中约60%可用于分析。
37710编辑于 2024-03-25

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

进一步改进GPT和BERT：使用Transformer的语言模型

使用ExLlamaV2量化并运行EXL2模型

首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？

CMU、谷歌提出Transformer-XL：学习超长上下文关系

学界 | DeepMind提出关系RNN：记忆模块RMC解决关系推理难题

LSTM之父重提30年前的「快速权重存储系统」：线性Transformer只是它的一种变体

DeepMind提出关系RNN：构建关系推理模块，强化学习利器

大语言模型--开源数据集

【小白学习PyTorch教程】十七、 PyTorch 中数据集torchvision和torchtext

huggingface镜像网站hf使用

国内 huggingface 镜像——帮助 AI 开发者快速稳定的下载模型数据集

【hf-mirror】HuggingFace镜像站助你实现模型自由

用最简陋的LSTM，超越各种Transformer

机器如何拥有记忆？DeepMind最新解读，发布最新长程记忆模型和建模基准

想效仿英伟达50分钟训练 BERT？只有GPU还不够……

NLP 论文领读｜文本生成模型退化怎么办？SimCTG 告诉你答案

机器如何拥有记忆？DeepMind最新解读，发布最新长程记忆模型和建模基准

20用于深度学习训练和研究的数据集

学界 | 超越Softmax瓶颈：一种高秩RNN语言模型

大模型增速远超摩尔定律！MIT最新研究：人类快要喂不饱AI了

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

进一步改进GPT和BERT：使用Transformer的语言模型

使用ExLlamaV2量化并运行EXL2模型

首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型？

CMU、谷歌提出Transformer-XL：学习超长上下文关系

学界 | DeepMind提出关系RNN：记忆模块RMC解决关系推理难题

LSTM之父重提30年前的「快速权重存储系统」：线性Transformer只是它的一种变体

DeepMind提出关系RNN：构建关系推理模块，强化学习利器

大语言模型--开源数据集

【小白学习PyTorch教程】十七、 PyTorch 中 数据集torchvision和torchtext

huggingface镜像网站hf使用

国内 huggingface 镜像——帮助 AI 开发者快速稳定的下载模型数据集

【hf-mirror】HuggingFace镜像站助你实现模型自由

用最简陋的LSTM，超越各种Transformer

机器如何拥有记忆？DeepMind最新解读，发布最新长程记忆模型和建模基准

想效仿英伟达50分钟训练 BERT？只有GPU还不够……

NLP 论文领读｜文本生成模型退化怎么办？SimCTG 告诉你答案

机器如何拥有记忆？DeepMind最新解读，发布最新长程记忆模型和建模基准

20用于深度学习训练和研究的数据集

学界 | 超越Softmax瓶颈：一种高秩RNN语言模型

大模型增速远超摩尔定律！MIT最新研究：人类快要喂不饱AI了

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【小白学习PyTorch教程】十七、 PyTorch 中数据集torchvision和torchtext