我一直在使用mallet为一个包含100,000行(按mallet格式约34MB)的文本文件推断主题。但是现在我需要在一个包含一百万行(大约180MB)的文件上运行它,并且我得到了一个java.lang.outofmemory异常。有没有一种方法可以将文件拆分成更小的文件,并为组合在一起的所有文件中的数据构建一个模型?提前感谢
发布于 2012-11-05 05:36:38
在此行的bin/mallet.bat increase value中:
set MALLET_MEMORY=1G发布于 2011-03-03 03:48:16
我不确定Mallet对大数据的可扩展性,但项目http://dragon.ischool.drexel.edu/可以将其数据存储在磁盘支持的持久性中,因此可以扩展到无限的语料库大小(当然,性能很低)
发布于 2011-03-03 04:17:48
即使模型是从多个文件中读取的,它仍然会非常庞大。您是否尝试过增加java虚拟机的堆大小?
https://stackoverflow.com/questions/5168342
复制相似问题