当我将相当大的数据集(即维基百科的档案)加载到火花数据格式中时,我收到了以下错误:
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
... 1 more
Caused by: java.lang.NullPointerException
at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)
at org.apache.spark.ml.feature.Tokenizer$$anonfun$createTransformFunc$1.apply(Tokenizer.scala:39)什么是最好的方法来移除火花放电数据中的Null值?
发布于 2018-10-22 07:11:51
您可以使用na.drop()来删除所有行,包括空值:
df.na.drop()https://stackoverflow.com/questions/52918422
复制相似问题