文章/答案/技术大牛

发布

问使用Google训练语言模型
EN

Stack Overflow用户

提问于 2016-07-08 10:39:45

回答 1查看 1.1K关注 0票数 1

我想找出一个词的条件概率，考虑到它以前的一组词。我计划同样地使用Google N-grams。然而，由于它是一个巨大的资源，我认为这是不可能在计算上做我的个人电脑。(处理所有的N-克，训练语言模型)。

那么，我有没有办法用Google来训练语言模型呢？(甚至python NLTK库也不再支持ngram语言模型了)注意--我知道语言模型可以用ngram来训练，但是考虑到Google的巨大大小，如何使用专门的Google来训练语言模型呢？

回答已采纳

发布于 2017-07-13 02:46:53

你应该看看加州大学伯克利分校的这个精巧的代码库：https://github.com/adampauls/berkeleylm。

在examples/文件夹中，您将找到一个bash脚本make-binary-from-google.sh，它可以从原始的Google Grams创建一个紧凑的语言模型。得到的LM实现了愚蠢的退避，并使用了以下文章中描述的快速高效的数据结构：paper.pdf

如果您只是对最终培训的LM感兴趣，您可以从伯克利托管的网站：binaries/下载各种语言。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38264636

复制

相似问题

问使用Google训练语言模型EN