我正在尝试使用Spark SQL和MLib在python中创建一个推荐程序(扩展电影推荐程序)。它在1.2.0中工作得很好。然而,在1.3.1中,默认情况下,spark会创建Dataframe对象,而不是SchemaRDD对象作为SQL输出。因此,mlib.ALS.train方法由于一个断言错误而失败: assert( ratings,RDD) (当然ratings不再是RDD :)
有没有人遇到这个问题?任何变通方法(我正在考虑使用一个map将DF转换为RDD,但这很愚蠢:)
发布于 2015-04-22 11:04:45
我认为社区会修补这个问题。但是现在,我们可以在ALS.train (或任何其他只允许RDDs的地方)中使用Dataframe.rdd。
https://stackoverflow.com/questions/29764424
复制相似问题