我对Apache Spark的世界还是比较陌生的。我正在尝试使用LinearRegressionWithSGD()估计一个大型模型,其中我希望在不创建大型设计矩阵的情况下估计固定的效果和交互项。
我注意到在DecisionTree中有一个支持分类变量的实现
这将创建一个从字符串到整数的Hash映射,并将其提供给模型。有没有人尝试过在Spark中线性模型的类似练习?
谢谢。
发布于 2015-04-20 12:49:11
您可以使用One-Hot encoding将分类变量转换为特征空间,在特征空间中可以输入到线性回归模型中。
例如,如果您有一个分类变量,其值为: Low、Medium、High,则可以将其编码为三种不同的整数特征,如下所示:
Category Low Medium High
Low 1 0 0
Medium 0 1 0
High 0 0 1这只是一个这样做的方法,还有其他方法,但如果你的分类值不是太大,一个-热编码是一个很好的选择。
发布于 2015-04-21 03:56:22
我已经在这个问题上工作了一段时间了。我的评估有很多类别,所以在输入到MLlib之前创建整个设计矩阵是非常低效的。我正在尝试修改Spark源代码,当它在梯度下降内运行SGD时扩展行。我会在完成后发布解决方案。
https://stackoverflow.com/questions/29380644
复制相似问题