我是新来的Apacha Spark和MLlib除了一件事之外,我对使用库(MLlib)有了比较好的理解。我不明白如何为各种算法准备输入数据文件。请帮帮忙。谢谢。
发布于 2015-02-05 20:58:37
如果您查看MLlib页面上提供的示例,您将能够找到详细介绍输入数据创建的示例。为了提供指针,假设您的存储中有一个文本csv文件,其中最后一行是标签。然后,下面的代码将为您创建一个标签点RDD,该点可以提交给MLlib算法。
val inputData = trainTextData.map { lines =>
val parts = lines.split(",")
LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
}.cache您可以使用相同的方法编写地图以从输入创建数据。不过,这将高度依赖于您的数据。
https://stackoverflow.com/questions/28343590
复制相似问题