我正在用PyTorch训练一个语言模型,我需要英语中最常见的一百万个单词作为字典。
据我所知,Google Ngram English One Million (1-gram)可能适合这项任务,但在下载了这个数据集的每个部分(0-9)并在它们上使用tail检查它们是否是我所假设的之后,我发现这个数据集中没有任何部分包含F字母以外的单词。
据我所知,任何版本1的文件都有按字母和时间顺序排序的ngram,我担心是否可能最常见的一百万个单词不会超出F?
或者我错过了这个数据集的要点,它不是最常见的一百万个单词?
发布于 2018-02-17 01:46:35
尝试使用shuf <file>进行随机排序,您将看到数据涵盖所有字母。您在文件末尾看到的不是f,而是连字fl。
https://stackoverflow.com/questions/48830857
复制相似问题