我希望使用dropna()删除包含所有空值的列。使用Pandas,您可以通过在axis = 'columns'中设置关键字参数dropna()来实现这一点。这里是GitHub文章中的一个例子。
我如何在PySpark中做到这一点?dropna()可以作为PySpark中的转换使用,但是axis不是可用关键字。
注意:我不想将我的数据转移到工作中。
我该如何从这个数据栏中删除家具栏呢?
data_2 = { 'furniture': [np.NaN ,np.NaN ,np.NaN], 'myid': ['1-12', '0-11', '2-12'], 'clothing': ["pants", "shoes", "socks"]}
df_1 = pd.DataFrame(data_2)
ddf_1 = spark.createDataFrame(df_1)
ddf_1.show() 发布于 2020-07-23 18:14:09
我知道这有点晚了,但我也为这件事而挣扎。这是我从中删除空列的尝试。
from pyspark.sql.functions import when, isnull
colsthatarenull = df.select([(when(isnull(c), c)).alias(c) for c in df.columns]).first().asDict()
namesofnullcols = {key:val for key, val in colsthatarenull.items() if val != None}.values()
df = df.drop(*namesofnullcols)发布于 2020-02-11 21:54:20
您应该能够使用列名如下:
df_1 = df_1.drop('furniture') https://datascience.stackexchange.com/questions/67883
复制相似问题