我正在做一个项目来识别推特上的情绪。我有一个大约50万的推特数据集。我使用weka.classifiers.functions.SMO作为机器学习分类器。我确实有10577个特征词,这意味着每条推特的特征向量都有10577个属性,再加上一个属性来指定类。
我正在windows环境上工作。我正在进行16 on系统的培训。但是,我仍然会得到"outofmemoryerror java堆空间“错误。我的训练集的大小大约是8MB。我尝试在weka runconfiguration.ini中增加堆大小,并在java中增加-Xmx选项。是否有任何方法来训练一个大型数据集的SMO分类器,或者可以递增地训练SMO分类器?
发布于 2014-03-18 09:54:44
我在使用Weka时遇到了类似的问题,我想standart JVM无法处理如此庞大的空间需求。也许还有其他方法,但当我搜索它时,我看到有人推荐使用Oracle作为JRockit。当我安装它时,我的问题马上就解决了。也许你可以试一试。
https://stackoverflow.com/questions/22433225
复制相似问题