首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将键值数据集表示为Mahout向量

将键值数据集表示为Mahout向量
EN

Stack Overflow用户
提问于 2013-01-09 14:42:05
回答 1查看 269关注 0票数 2

我在CSV中有一个数据集,它是一组键值对,数据集很大,值是整数和短字符串(即不是长文本,而是关键字)的混合,我想使用Mahout的聚类算法来处理它。

问题在于将此CSV转换为可由Mahout使用的向量。我一直在读"Mahout In Action“,似乎有两种矢量化选择,一种是通过Mahout的DenseVector、RandomAccessSparseVector和SequentialAccessSparseVector实现使用数值,另一种是使用向量空间模型来向量化文本文档。

我想要向量化的数据并不是真正的文本文档,但由于它是一个具有许多不同键和值的巨大数据集,因此很难将其映射为数字值。将这类数据矢量化以便在Mahout中使用的最佳方法是什么?

如有任何建议,我们将不胜感激。

谢谢

EN

回答 1

Stack Overflow用户

发布于 2014-11-13 00:01:37

您最有可能需要一个RandomAccessSparseVector。

  • 不是DenseVector,因为大多数可能的键都不会被表示。你有整数和字符串的混合作为键,所以它是一个很大的键空间。
  • 不是SequentialAccessSparseVector,因为在你的键空间中似乎没有自然的顺序,这会使特定的访问顺序在Mahout中运行你的算法时更有效。

您可以很容易地尝试不同的向量表示法,看看哪种表示法的性能最好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14229655

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档