首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Mallet主题建模

Mallet主题建模
EN

Stack Overflow用户
提问于 2011-03-02 21:48:58
回答 5查看 2.4K关注 0票数 6

我一直在使用mallet为一个包含100,000行(按mallet格式约34MB)的文本文件推断主题。但是现在我需要在一个包含一百万行(大约180MB)的文件上运行它,并且我得到了一个java.lang.outofmemory异常。有没有一种方法可以将文件拆分成更小的文件,并为组合在一起的所有文件中的数据构建一个模型?提前感谢

EN

回答 5

Stack Overflow用户

发布于 2012-11-05 05:36:38

在此行的bin/mallet.bat increase value中:

代码语言:javascript
复制
set MALLET_MEMORY=1G
票数 6
EN

Stack Overflow用户

发布于 2011-03-03 03:48:16

我不确定Mallet对大数据的可扩展性,但项目http://dragon.ischool.drexel.edu/可以将其数据存储在磁盘支持的持久性中,因此可以扩展到无限的语料库大小(当然,性能很低)

票数 1
EN

Stack Overflow用户

发布于 2011-03-03 04:17:48

即使模型是从多个文件中读取的,它仍然会非常庞大。您是否尝试过增加java虚拟机的堆大小?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5168342

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档