首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache Spark |对于不同的统计算法,spark MLlib需要哪些输入文件格式

Apache Spark |对于不同的统计算法,spark MLlib需要哪些输入文件格式
EN

Stack Overflow用户
提问于 2015-02-05 20:08:44
回答 1查看 465关注 0票数 0

我是新来的Apacha Spark和MLlib除了一件事之外,我对使用库(MLlib)有了比较好的理解。我不明白如何为各种算法准备输入数据文件。请帮帮忙。谢谢。

EN

回答 1

Stack Overflow用户

发布于 2015-02-05 20:58:37

如果您查看MLlib页面上提供的示例,您将能够找到详细介绍输入数据创建的示例。为了提供指针,假设您的存储中有一个文本csv文件,其中最后一行是标签。然后,下面的代码将为您创建一个标签点RDD,该点可以提交给MLlib算法。

代码语言:javascript
复制
val inputData = trainTextData.map { lines =>
      val parts = lines.split(",")
      LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
    }.cache

您可以使用相同的方法编写地图以从输入创建数据。不过,这将高度依赖于您的数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28343590

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档