文章/答案/技术大牛

发布

问每个Mahout集群中的向量
EN

Stack Overflow用户

提问于 2013-04-22 09:20:10

回答 1查看 366关注 0票数 0

我是个阿帕奇·马哈特新手。我正在尝试理解我命名的向量中的哪些属于哪个集群。互联网上的很多资源都是关于文本文档和使用clusterdump命令的。但是，我的数据集真的很大，运行该命令总是会导致Java内存不足异常。此外，我不认为使用clusterdump可以回答我的问题。

我想知道，使用目录clusteredPoints、clusters-[0-9]+和clusters-*-final，除了了解哪些命名向量属于哪些集群之外，是否有可能一无所知

如果有帮助的话，到目前为止，我已经根据用户的听歌习惯形成了用户集群。为此，我最初使用NamedVectors创建了一个序列文件，其中NamedVector的名称是userId，Vector本身是一个双精度数组，其中包含用户所听歌曲的标签的权重(下面是一个示例)。

    AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
    ...
    ...
    ...

然后我成功地运行了k-means。我在目录clusteredPoints (大约88个文件，名称如part-m-00088)和我认为包含质心的目录簇中有输出。

谢谢你的帮助！

apache

hadoop

cluster-analysis

mahout

回答 1

Stack Overflow用户

发布于 2013-04-23 19:05:31

我认为您需要在clusterdump中做一些研究，尝试mahout clusterdump --帮助尝试这个

mahout clusterdump -i clusters-*-final/part-r-00000 -o output -p clusteredPoints/part-m-00000

并尝试此link以获得进一步的解释。

您也可以尝试添加选项-of CSV，您将看到如下所示的显示：

vec2..vecl

id_cluster2，id_cluster1，英特尔，
id_cluster1，英特尔，英特尔，vec1，英特尔，英特尔，vec1，英特尔，vec2..vecl
...

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16138045

复制

相似问题

问每个Mahout集群中的向量
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问每个Mahout集群中的向量EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问每个Mahout集群中的向量
EN