我正在尝试为Spark2.x中的机器学习(分类)算法设置初始权重或参数。不幸的是,除了MultiLayerPerceptron算法之外,没有其他算法提供设置初始权值/参数值的方法。
我试着用火花解决增量学习问题。在这里,我需要加载旧模型,用系统中的新数据对旧模型进行再训练。我该怎么做?
我如何为其他算法做到这一点,比如:
我需要试验多种算法,然后选择性能最好的算法。
发布于 2018-10-08 10:22:37
我如何为其他算法做到这一点,比如:
你不能。基于树的算法不适合增量学习,因为它们查看数据的全局属性,并且没有可用于引导过程的“初始权重或值”。
您可以使用StreamingLogisticRegressionWithSGD准确地实现所需的过程,包括使用setInitialWeights设置初始权重。
理论上,它可以实现类似于流回归StreamingLogisticRegressionWithSGD或StreamingLinearRegressionWithSGD,通过扩展StreamingLinearAlgorithm,但没有这样的实现内置,ans,因为org.apache.spark.mllib处于维护模式,就不会有。
发布于 2022-03-10 03:25:21
https://stackoverflow.com/questions/52699156
复制相似问题