首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Google Ngram查看器-英语一百万

Google Ngram查看器-英语一百万
EN

Stack Overflow用户
提问于 2018-02-17 00:20:42
回答 1查看 376关注 0票数 1

我正在用PyTorch训练一个语言模型,我需要英语中最常见的一百万个单词作为字典。

据我所知,Google Ngram English One Million (1-gram)可能适合这项任务,但在下载了这个数据集的每个部分(0-9)并在它们上使用tail检查它们是否是我所假设的之后,我发现这个数据集中没有任何部分包含F字母以外的单词。

据我所知,任何版本1的文件都有按字母和时间顺序排序的ngram,我担心是否可能最常见的一百万个单词不会超出F?

或者我错过了这个数据集的要点,它不是最常见的一百万个单词?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-17 01:46:35

尝试使用shuf <file>进行随机排序,您将看到数据涵盖所有字母。您在文件末尾看到的不是f,而是连字

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48830857

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档