我一直在尝试让一个单词级别的语言模型在lingpipe上工作。我遇到的所有示例和教程都显示了character-n-gram模型。如何开始使用lingpipe训练一个词级模型,然后使用该模型在其他文档上测试它?
此外,我注意到TokenizedLM是不可序列化的。有没有办法保存它并在以后加载它,而不需要每次都经过重新训练?
最后,有没有其他框架/工具可以让我在不需要编码的情况下做到这一点?
发布于 2011-11-08 04:34:16
我不知道Java,但是如果你不熟悉这种编程语言,那就是Python NLTK,它有tokenizers和ngram-models,还有很多other stuff。还有一个book,可以用来作为介绍和获取概述。
https://stackoverflow.com/questions/8031657
复制相似问题