文章/答案/技术大牛

发布

社区首页 >问答首页 >Qubole中广域数据的PySpark机器学习

问Qubole中广域数据的PySpark机器学习
EN

Stack Overflow用户

提问于 2020-01-03 02:33:49

回答 1查看 67关注 0票数 0

我有一个包含大约250个特征的大型数据集，我想在梯度增强树分类器中使用它。我有数百万个观察值，但即使是1%的数据(大约30万个观察值)，我也无法让模型工作。下面是我的代码片段。我不能为你分享任何数据，但所有的特征都是数字的(对于不同的因子水平，要么是数值变量，要么是虚拟变量)。我使用VectorAssembler创建一个features变量，其中包含来自相应观察值的特征向量。

当我将模型使用的特征数量减少到5个时，模型运行时没有问题。只有当我通过添加大量功能使问题变得更加复杂时，它才会开始失败。我得到的错误是一个TTransport Exception。该模型将尝试运行数小时，然后才会出现错误。我正在使用Qubole构建我的模型。我对Qubole和PySpark都是新手，所以我不确定我的问题是spark内存问题、Qubole内存问题(我的集群有4+ TB，数据只有几GB)等等。

任何关于测试/调试的想法或想法都会很有帮助。谢谢。

train = train.withColumnRenamed(target, "label")
test = test.withColumnRenamed(target, "label")

evaluator = BinaryClassificationEvaluator()
gbt = GBTClassifier(maxIter=10)
gbtModel = gbt.fit(train)
gbtPredictions = gbtModel.transform(test)
gbtPredictions.select('label','rawPrediction', 'prediction', 'probability').show(10)

print("Test Area Under ROC: " + str(evaluator.evaluate(gbtPredictions, {evaluator.metricName: "areaUnderROC"})))

pyspark

bigdata

qubole

python

machine-learning

回答 1

Stack Overflow用户

发布于 2020-01-03 12:39:25

您可能想要尝试此https://docs.qubole.com/en/latest/troubleshooting-guide/notebook-ts/troubleshoot-notebook.html#ttexception。如果这仍然没有帮助，请随时为我们创建一个支持票证，我们将很乐意进行调查。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59568303

复制

相似问题

问Qubole中广域数据的PySpark机器学习
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Qubole中广域数据的PySpark机器学习EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Qubole中广域数据的PySpark机器学习
EN