文章/答案/技术大牛

发布

社区首页 >问答首页 >PySpark:如何在PySpark转换中指定PySpark轴？

问PySpark:如何在PySpark转换中指定PySpark轴？
EN

Data Science用户

提问于 2020-02-11 10:08:22

回答 2查看 1.1K关注 0票数 1

我希望使用dropna()删除包含所有空值的列。使用Pandas，您可以通过在axis = 'columns'中设置关键字参数dropna()来实现这一点。这里是GitHub文章中的一个例子。

我如何在PySpark中做到这一点？dropna()可以作为PySpark中的转换使用，但是axis不是可用关键字。

注意:我不想将我的数据转移到工作中。

我该如何从这个数据栏中删除家具栏呢？

data_2 = { 'furniture': [np.NaN ,np.NaN ,np.NaN], 'myid': ['1-12', '0-11', '2-12'], 'clothing': ["pants", "shoes", "socks"]} 

df_1 = pd.DataFrame(data_2)
ddf_1 = spark.createDataFrame(df_1)
ddf_1.show()

data-cleaning

pyspark

python

回答 2

Data Science用户

发布于 2020-07-23 18:14:09

我知道这有点晚了，但我也为这件事而挣扎。这是我从中删除空列的尝试。

from pyspark.sql.functions import when, isnull

colsthatarenull = df.select([(when(isnull(c), c)).alias(c) for c in df.columns]).first().asDict()
namesofnullcols = {key:val for key, val in colsthatarenull.items() if val != None}.values()
df = df.drop(*namesofnullcols)

票数 0

Data Science用户

发布于 2020-02-11 21:54:20

您应该能够使用列名如下：

df_1 = df_1.drop('furniture')

票数 -1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/67883

复制

相似问题

问PySpark:如何在PySpark转换中指定PySpark轴？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PySpark:如何在PySpark转换中指定PySpark轴？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PySpark:如何在PySpark转换中指定PySpark轴？
EN