我正在编写一个星星之火应用程序,并希望在MLlib中使用算法。在API文档中,我为相同的算法找到了两个不同的类。
例如,LogisticRegression在org.apache.spark.ml.classification中有一个,在org.apache.spark.mllib.classification中也有一个LogisticRegressionwithSGD。
我唯一能找到的区别是,org.apache.spark.ml中的那个是从Estimator继承的,可以用于交叉验证。我很困惑,因为它们被放在不同的包裹里。有人知道原因吗?谢谢!
发布于 2015-05-14 07:44:35
发布于 2016-03-30 09:34:20
星火导轨说:
spark.mllib包含构建在RDD之上的原始API。 spark.ml为构建ML管道提供了建立在DataFrames之上的高级API .
和
推荐使用spark.ml,因为使用DataFrames时,API更通用、更灵活。但随着spark.mllib的发展,我们将继续支持spark.ml。用户应该乐于使用spark.mllib特性,并期待更多功能的出现。开发人员应该为spark.ml提供新的算法,如果它们很好地符合ML流水线概念,例如,特征提取器和变压器。
我想医生解释得很好。
https://stackoverflow.com/questions/30231840
复制相似问题