我们有以下输入数据。
df1
副署长职位性别薪酬道布职位
金融学男5000 2009-02-02 00:00:00
人力资源-女性-6000-2006-02-00:00
HR,男性,14200,null,US
08-02-02 00:00:00
男,55555,08-02-02:00:00
营销小姐12200 2005-02-02 00:00:00英国
使用以下代码查找计数:
df = df1.groupBy(df1['Dep'])
df2 = df.agg({'Salary':'count'})
df2.show()结果是:
副署长人数(薪金)
财务.1
人力资源2
市场营销.1
信通技术1
预期结果如下所示。
副署长人数(薪金)
财务.1
人力资源2
市场营销.1
信通技术2
这里的问题是第4行数据,其中工资数据为null.对null的计数操作不起作用。
感谢你在解决这个问题上的帮助。
发布于 2018-09-18 14:38:17
您可以替换空值:
df \
.na.fill({'salary':0}) \
.groupBy('Dep') \
.agg({'Salary':'count'})https://stackoverflow.com/questions/52387979
复制相似问题