首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Mallet:主题N-gram

Mallet:主题N-gram
EN

Stack Overflow用户
提问于 2012-03-27 23:19:45
回答 1查看 3.5K关注 0票数 2

我想使用--use-ngrams true选项运行mallet,但似乎无法使其正常工作。我使用以下命令导入了我的数据:

代码语言:javascript
复制
./bin/mallet import-dir --input path --output topic-input.mallet --keep-seqence -- removed stopwords

现在我想训练一个主题ngram模型:

代码语言:javascript
复制
bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml

但是我得到了这个错误:

代码语言:javascript
复制
Exception in thread "main" java.lang.ClassCastException: cc.mallet.types.FeatureSequence cannot be cast to cc.mallet.types.FeatureSequenceWithBigrams
at cc.mallet.topics.TopicalNGrams.estimate(TopicalNGrams.java:78)
at cc.mallet.topics.tui.Vectors2Topics.main(Vectors2Topics.java:249)

正如您所看到的,我将mallet作为命令行工具运行,而不是深入了解它的API以使其正常工作。有什么建议吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-03-29 03:48:43

找到了答案:

您必须使用‘--keep-sequence-bgiram’参数导入要运行topical-ngram建模的目录(例如

代码语言:javascript
复制
./bin/mallet import-dir --input path --output topic-input.mallet --keep-sequence-bigrams --remove-stopwords

然后,按如下方式运行主题模型:

代码语言:javascript
复制
bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9892497

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档