首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PySpark:如何在PySpark转换中指定PySpark轴?

PySpark:如何在PySpark转换中指定PySpark轴?
EN

Data Science用户
提问于 2020-02-11 10:08:22
回答 2查看 1.1K关注 0票数 1

我希望使用dropna()删除包含所有空值的列。使用Pandas,您可以通过在axis = 'columns'中设置关键字参数dropna()来实现这一点。这里是GitHub文章中的一个例子。

我如何在PySpark中做到这一点?dropna()可以作为PySpark中的转换使用,但是axis不是可用关键字

注意:我不想将我的数据转移到工作中。

我该如何从这个数据栏中删除家具栏呢?

代码语言:javascript
复制
data_2 = { 'furniture': [np.NaN ,np.NaN ,np.NaN], 'myid': ['1-12', '0-11', '2-12'], 'clothing': ["pants", "shoes", "socks"]} 

df_1 = pd.DataFrame(data_2)
ddf_1 = spark.createDataFrame(df_1)
ddf_1.show() 
EN

回答 2

Data Science用户

发布于 2020-07-23 18:14:09

我知道这有点晚了,但我也为这件事而挣扎。这是我从中删除空列的尝试。

代码语言:javascript
复制
from pyspark.sql.functions import when, isnull

colsthatarenull = df.select([(when(isnull(c), c)).alias(c) for c in df.columns]).first().asDict()
namesofnullcols = {key:val for key, val in colsthatarenull.items() if val != None}.values()
df = df.drop(*namesofnullcols)
票数 0
EN

Data Science用户

发布于 2020-02-11 21:54:20

您应该能够使用列名如下:

代码语言:javascript
复制
df_1 = df_1.drop('furniture') 
票数 -1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/67883

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档