首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用MLib的Apache Spark中的分类变量

使用MLib的Apache Spark中的分类变量
EN

Stack Overflow用户
提问于 2015-04-01 08:05:22
回答 2查看 1K关注 0票数 1

我对Apache Spark的世界还是比较陌生的。我正在尝试使用LinearRegressionWithSGD()估计一个大型模型,其中我希望在不创建大型设计矩阵的情况下估计固定的效果和交互项。

我注意到在DecisionTree中有一个支持分类变量的实现

https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/tree/DecisionTree.scala#L293

这将创建一个从字符串到整数的Hash映射,并将其提供给模型。有没有人尝试过在Spark中线性模型的类似练习?

谢谢。

EN

回答 2

Stack Overflow用户

发布于 2015-04-20 12:49:11

您可以使用One-Hot encoding将分类变量转换为特征空间,在特征空间中可以输入到线性回归模型中。

例如,如果您有一个分类变量,其值为: Low、Medium、High,则可以将其编码为三种不同的整数特征,如下所示:

代码语言:javascript
复制
Category    Low Medium High
Low         1   0      0
Medium      0   1      0
High        0   0      1

这只是一个这样做的方法,还有其他方法,但如果你的分类值不是太大,一个-热编码是一个很好的选择。

票数 2
EN

Stack Overflow用户

发布于 2015-04-21 03:56:22

我已经在这个问题上工作了一段时间了。我的评估有很多类别,所以在输入到MLlib之前创建整个设计矩阵是非常低效的。我正在尝试修改Spark源代码,当它在梯度下降内运行SGD时扩展行。我会在完成后发布解决方案。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29380644

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档