我遇到了一个将“字符串”列转换为数字的问题。
我能够执行以下两个命令:
people=sqlContext.read.json("C:\wdchentxt\People2.json")
people.select('name',people.age+1).show()但我得到了以下错误,因为'age‘是“不是数字列”。如何将age列从字符串收敛到数值型?
people.groupBy('gender').sum('age').show()我特别困惑,因为people.age+1是成功的。
发布于 2017-01-14 14:23:10
您可以在PySpark数据帧中使用cast函数
df.select('gender',df.age.cast('int').alias('age')).groupBy('gender').sum('age').show()https://stackoverflow.com/questions/41646578
复制相似问题