是否有任何方便的方法将Dataframe从Spark转换为DL4j所使用的类型?目前在使用DL4j的算法中使用Daraframe,我得到了一个错误:“类型不匹配,预期: RDDDataSet,实际: DatasetRow”。
发布于 2018-09-19 02:20:28
通常,我们使用datavec来实现这一点。如果你愿意的话,我可以给你举一些例子。Dataframes做了太多的假设,使得它过于脆弱,无法用于现实世界的深度学习。
除此之外,数据框架通常不是表示线性代数的一个很好的抽象。(例如,在处理图像时,它会掉下来)
但是一般来说,数据集只是一对像numpy一样的ndarray。如果您必须使用星火工具,并且只想在最后一英里上使用ndarray,那么我的建议是获取dataframe来匹配某种形式的纯数字模式,将其映射到ndarray "row“。
一般来说,我们这么做的一个很大的原因是因为我们所有的子虚乌有。在处理数据管道和将JVM用于不应该使用的东西(矩阵数学)时,Spark有许多限制--我们采用了一种不同的方法,允许我们高效地使用gpus和其他一些东西。
当我们进行这种转换时,最终的结果是:原始数据->数值表示-> ndarray。
您可以做的是将数据映射到一个双/浮点数数组上,然后使用Nd4j.create(浮点数/双数组),或者您也可以这样做: someRdd.map(inputFloatArray -> new DataSet(Nd4j.create,yourInputArray),yourLabelINDARray)
这将给您一个“数据集”,您需要一对与输入数据和标签相匹配的ndarray。从那里得到的标签是相对于你要解决的问题的类型,不管是分类还是回归。
https://stackoverflow.com/questions/52389740
复制相似问题