我想知道如何使用" by“函数对多个列进行分组和求和。如果我想按一列分组,我可以这样做
someData = DataFrame(:Countries => ["Afganistan","Albainia","Albainia","Andorra","Angola","Angola"],:population => rand(100:1000,6), :GDP => rand(1:100,6))
by(someData, :Countries, df ->DataFrame(pop_sum = sum(df[:population])))然而,我想要得到人口和GDP的总和。我尝试了下面这样的东西,当然是不正确的。有什么想法吗?
by(someData, :Countries, df ->DataFrame(pop_sum, GDP_sum = sum(df[[:population,:GDP]])))发布于 2020-11-04 01:06:50
不要使用by函数,因为它已被弃用。改为使用此命令(您不会看到警告,因为启动Julia时可能会将--depwarn设置为no,这是默认设置):
julia> someData = DataFrame(:Countries => ["Afganistan","Albainia","Albainia","Andorra","Angola","Angola"],
:population => rand(100:1000,6),
:GDP => rand(1:100,6))
6×3 DataFrame
│ Row │ Countries │ population │ GDP │
│ │ String │ Int64 │ Int64 │
├─────┼────────────┼────────────┼───────┤
│ 1 │ Afganistan │ 543 │ 29 │
│ 2 │ Albainia │ 853 │ 71 │
│ 3 │ Albainia │ 438 │ 81 │
│ 4 │ Andorra │ 860 │ 88 │
│ 5 │ Angola │ 940 │ 64 │
│ 6 │ Angola │ 688 │ 40 │
julia> combine(groupby(someData, :Countries), [:population, :GDP] .=> sum)
4×3 DataFrame
│ Row │ Countries │ population_sum │ GDP_sum │
│ │ String │ Int64 │ Int64 │
├─────┼────────────┼────────────────┼─────────┤
│ 1 │ Afganistan │ 543 │ 29 │
│ 2 │ Albainia │ 1291 │ 152 │
│ 3 │ Andorra │ 860 │ 88 │
│ 4 │ Angola │ 1628 │ 104 │另一种编写方式是:
julia> combine(groupby(someData, :Countries)) do sdf
return (population_sum = sum(sdf.population), GDP_sum=sum(sdf.GDP))
end
4×3 DataFrame
│ Row │ Countries │ population_sum │ GDP_sum │
│ │ String │ Int64 │ Int64 │
├─────┼────────────┼────────────────┼─────────┤
│ 1 │ Afganistan │ 543 │ 29 │
│ 2 │ Albainia │ 1291 │ 152 │
│ 3 │ Andorra │ 860 │ 88 │
│ 4 │ Angola │ 1628 │ 104 │但是在这种情况下,它更加冗长(如果您想在返回值之前对数据进行更复杂的预处理,那么它将非常有用)。
https://stackoverflow.com/questions/64666661
复制相似问题