我想找出一个词的条件概率,考虑到它以前的一组词。我计划同样地使用Google N-grams。然而,由于它是一个巨大的资源,我认为这是不可能在计算上做我的个人电脑。(处理所有的N-克,训练语言模型)。
那么,我有没有办法用Google来训练语言模型呢?(甚至python NLTK库也不再支持ngram语言模型了)注意--我知道语言模型可以用ngram来训练,但是考虑到Google的巨大大小,如何使用专门的Google来训练语言模型呢?
发布于 2017-07-13 02:46:53
你应该看看加州大学伯克利分校的这个精巧的代码库:https://github.com/adampauls/berkeleylm。
在examples/文件夹中,您将找到一个bash脚本make-binary-from-google.sh,它可以从原始的Google Grams创建一个紧凑的语言模型。得到的LM实现了愚蠢的退避,并使用了以下文章中描述的快速高效的数据结构:paper.pdf
如果您只是对最终培训的LM感兴趣,您可以从伯克利托管的网站:binaries/下载各种语言。
https://stackoverflow.com/questions/38264636
复制相似问题