首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >XGBClassifier适合pyspark数据帧吗?

XGBClassifier适合pyspark数据帧吗?
EN

Stack Overflow用户
提问于 2019-12-20 12:43:05
回答 1查看 199关注 0票数 0

是否可以将pyspark数据帧传递给XGBClassifer,如下所示:

代码语言:javascript
复制
from xgboost import XGBClassifer
model1 = XGBClassifier()
model1.fit (df.select(features), df.select('label'))

如果不是,那么将pyspark dataframe应用到xgboost的最佳方式是什么?

非常感谢

EN

回答 1

Stack Overflow用户

发布于 2019-12-20 21:18:41

我相信有两种方法可以剥掉这只猫的皮。您可以执行以下任一操作:

  1. 使用toPandas()方法(或者使用pyarrow,甚至更好)将您的pyspark数据帧移动到pandaspandas数据帧在xgboost上可以很好地工作。但是,您的数据需要放入内存中,因此如果您正在处理TB甚至GB的数据,则可能需要进行二次采样。
  2. 查看了xgboost4jxgboost4j-spark包。就像pyspark是使用py4j的包装器一样,这些人可以利用SparkML的内置功能,尽管通常是针对Scala-Spark的。例如,这些包中的XGBoostEstimator可以用作SparkML Pipeline() object中的舞台。

希望这能有所帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59419911

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档