我在CSV中有一个数据集,它是一组键值对,数据集很大,值是整数和短字符串(即不是长文本,而是关键字)的混合,我想使用Mahout的聚类算法来处理它。
问题在于将此CSV转换为可由Mahout使用的向量。我一直在读"Mahout In Action“,似乎有两种矢量化选择,一种是通过Mahout的DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector实现使用数值,另一种是使用向量空间模型来向量化文本文档。
我想要向量化的数据并不是真正的文本文档,但由于它是一个具有许多不同键和值的巨大数据集,因此很难将其映射为数字值。将这类数据矢量化以便在Mahout中使用的最佳方法是什么?
如有任何建议,我们将不胜感激。
谢谢
发布于 2014-11-13 00:01:37
您最有可能需要一个RandomAccessSparseVector。
您可以很容易地尝试不同的向量表示法,看看哪种表示法的性能最好。
https://stackoverflow.com/questions/14229655
复制相似问题