构建包含要容纳功能的列的dataframe。假设列名为"f“表示功能。它也可以包含其他不会被触及的列。
此特征列为向量类型。可以使用示例- https://spark.apache.org/docs/latest/mllib-data-types.html创建稀疏向量。
如果您有单词，那么您可以使用示例- https://spark.apache.org/docs/latest/ml-features.html#word2vec创建它们的向量。
一旦输入数据与类型向量的列准备就绪，实例化org.apache.spark.ml.clustering.KMeans、设置参数K和seed、拟合和预测。您可以使用此示例- https://spark.apache.org/docs/latest/ml-clustering.html#k-means

val trainingDataset = //build a dataframe containing a column "f" of type org.apache.spark.mllib.linalg.Vector


val kmeans = new KMeans().setK(2).setSeed(1L).setFeaturesCol("f").setPredictionCol("p")
val model = kmeans.fit(trainingDataset) // your model is ready

//Predict another dataset
val pDataset = //build a dataframe containing a column "f" of type org.apache.spark.mllib.linalg.Vector

val predictions = model.transform(pDataset) 
//predictions will contain your prediction on column "p".

在本地星火安装的“示例”文件夹中还有其他可用的示例。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38870280

复制

相似问题

问星火MLlib K-均值聚类
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星火MLlib K-均值聚类EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星火MLlib K-均值聚类
EN