首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将Dataframe从星火转换为DL4j使用的类型

将Dataframe从星火转换为DL4j使用的类型
EN

Stack Overflow用户
提问于 2018-09-18 15:13:20
回答 1查看 536关注 0票数 0

是否有任何方便的方法将Dataframe从Spark转换为DL4j所使用的类型?目前在使用DL4j的算法中使用Daraframe,我得到了一个错误:“类型不匹配,预期: RDDDataSet,实际: DatasetRow”。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-19 02:20:28

通常,我们使用datavec来实现这一点。如果你愿意的话,我可以给你举一些例子。Dataframes做了太多的假设,使得它过于脆弱,无法用于现实世界的深度学习。

除此之外,数据框架通常不是表示线性代数的一个很好的抽象。(例如,在处理图像时,它会掉下来)

我们与spark.ml有一些互操作:https://github.com/deeplearning4j/deeplearning4j/blob/master/deeplearning4j/deeplearning4j-scaleout/spark/dl4j-spark-ml/src/test/java/org/deeplearning4j/spark/ml/impl/SparkDl4jNetworkTest.java

但是一般来说,数据集只是一对像numpy一样的ndarray。如果您必须使用星火工具,并且只想在最后一英里上使用ndarray,那么我的建议是获取dataframe来匹配某种形式的纯数字模式,将其映射到ndarray "row“。

一般来说,我们这么做的一个很大的原因是因为我们所有的子虚乌有。在处理数据管道和将JVM用于不应该使用的东西(矩阵数学)时,Spark有许多限制--我们采用了一种不同的方法,允许我们高效地使用gpus和其他一些东西。

当我们进行这种转换时,最终的结果是:原始数据->数值表示-> ndarray。

您可以做的是将数据映射到一个双/浮点数数组上,然后使用Nd4j.create(浮点数/双数组),或者您也可以这样做: someRdd.map(inputFloatArray -> new DataSet(Nd4j.create,yourInputArray),yourLabelINDARray)

这将给您一个“数据集”,您需要一对与输入数据和标签相匹配的ndarray。从那里得到的标签是相对于你要解决的问题的类型,不管是分类还是回归。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52389740

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档