问Apache Spark |对于不同的统计算法，spark MLlib需要哪些输入文件格式
EN

Stack Overflow用户

提问于 2015-02-05 20:08:44

回答 1查看 465关注 0票数 0

我是新来的Apacha Spark和MLlib除了一件事之外，我对使用库(MLlib)有了比较好的理解。我不明白如何为各种算法准备输入数据文件。请帮帮忙。谢谢。

java

apache-spark

apache-spark-mllib

回答 1

Stack Overflow用户

发布于 2015-02-05 20:58:37

如果您查看MLlib页面上提供的示例，您将能够找到详细介绍输入数据创建的示例。为了提供指针，假设您的存储中有一个文本csv文件，其中最后一行是标签。然后，下面的代码将为您创建一个标签点RDD，该点可以提交给MLlib算法。

val inputData = trainTextData.map { lines =>
      val parts = lines.split(",")
      LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
    }.cache

您可以使用相同的方法编写地图以从输入创建数据。不过，这将高度依赖于您的数据。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/28343590

复制

相似问题

问Apache Spark |对于不同的统计算法，spark MLlib需要哪些输入文件格式
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Spark |对于不同的统计算法，spark MLlib需要哪些输入文件格式EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Spark |对于不同的统计算法，spark MLlib需要哪些输入文件格式
EN