首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何设置火花源初始中心

如何设置火花源初始中心
EN

Stack Overflow用户
提问于 2017-04-18 22:07:48
回答 1查看 3.5K关注 0票数 3

我用Spark来运行Kmeans。我有大量的数据和三个现有的中心,例如,三个中心是:[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].,所以我怎样才能表明Kmeans中心是上面的三个向量。我看到Kmean对象有种子参数,但是种子参数是一个长类型而不是数组。那么,我如何告诉Spark只使用现有的中心进行聚类。

或者说,我不明白种子在星火中意味着什么,我认为种子应该是一个向量数组,它在运行聚类之前代表指定的中心。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-04-18 22:52:39

实际上,seed并不是您所想的那样,即它不是用于“种子”(初始化)集群中心,而是简单地设置随机种子--您可以在ScalaPython API的文档中确认这一点。

据我所知,目前(Spark2.1)无法为Spark中的k-means提供初始集群中心(参见这个答案中的Spark )。根据文档,initMode参数:

可以是“随机”来选择随机点作为初始聚类中心,也可以是“k-意思是++”的一个并行变体)。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43483011

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档