文章/答案/技术大牛

发布

社区首页 >问答首页 >Google Ngram查看器-英语一百万

问Google Ngram查看器-英语一百万
EN

Stack Overflow用户

提问于 2018-02-17 00:20:42

回答 1查看 376关注 0票数 1

我正在用PyTorch训练一个语言模型，我需要英语中最常见的一百万个单词作为字典。

据我所知，Google Ngram English One Million (1-gram)可能适合这项任务，但在下载了这个数据集的每个部分(0-9)并在它们上使用tail检查它们是否是我所假设的之后，我发现这个数据集中没有任何部分包含F字母以外的单词。

据我所知，任何版本1的文件都有按字母和时间顺序排序的ngram，我担心是否可能最常见的一百万个单词不会超出F？

或者我错过了这个数据集的要点，它不是最常见的一百万个单词？

dictionary

nlp

words

n-gram

pytorch

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-17 01:46:35

尝试使用shuf <file>进行随机排序，您将看到数据涵盖所有字母。您在文件末尾看到的不是f，而是连字ﬂ。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48830857

复制

相似问题

问Google Ngram查看器-英语一百万
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Google Ngram查看器-英语一百万EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Google Ngram查看器-英语一百万
EN