问Julia DataFrames.jl，Groupby和多列求和
EN

Stack Overflow用户

提问于 2020-11-04 00:23:04

回答 1查看 677关注 0票数 3

我想知道如何使用" by“函数对多个列进行分组和求和。如果我想按一列分组，我可以这样做

someData = DataFrame(:Countries => ["Afganistan","Albainia","Albainia","Andorra","Angola","Angola"],:population => rand(100:1000,6), :GDP => rand(1:100,6))

by(someData, :Countries, df ->DataFrame(pop_sum = sum(df[:population])))

然而，我想要得到人口和GDP的总和。我尝试了下面这样的东西，当然是不正确的。有什么想法吗？

by(someData, :Countries, df ->DataFrame(pop_sum, GDP_sum = sum(df[[:population,:GDP]])))

dataframe

julia

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-04 01:06:50

不要使用by函数，因为它已被弃用。改为使用此命令(您不会看到警告，因为启动Julia时可能会将--depwarn设置为no，这是默认设置)：

julia> someData = DataFrame(:Countries => ["Afganistan","Albainia","Albainia","Andorra","Angola","Angola"],
                            :population => rand(100:1000,6),
                            :GDP => rand(1:100,6))
6×3 DataFrame
│ Row │ Countries  │ population │ GDP   │
│     │ String     │ Int64      │ Int64 │
├─────┼────────────┼────────────┼───────┤
│ 1   │ Afganistan │ 543        │ 29    │
│ 2   │ Albainia   │ 853        │ 71    │
│ 3   │ Albainia   │ 438        │ 81    │
│ 4   │ Andorra    │ 860        │ 88    │
│ 5   │ Angola     │ 940        │ 64    │
│ 6   │ Angola     │ 688        │ 40    │

julia> combine(groupby(someData, :Countries), [:population, :GDP] .=> sum)
4×3 DataFrame
│ Row │ Countries  │ population_sum │ GDP_sum │
│     │ String     │ Int64          │ Int64   │
├─────┼────────────┼────────────────┼─────────┤
│ 1   │ Afganistan │ 543            │ 29      │
│ 2   │ Albainia   │ 1291           │ 152     │
│ 3   │ Andorra    │ 860            │ 88      │
│ 4   │ Angola     │ 1628           │ 104     │

另一种编写方式是：

julia> combine(groupby(someData, :Countries)) do sdf
       return (population_sum = sum(sdf.population), GDP_sum=sum(sdf.GDP))
       end
4×3 DataFrame
│ Row │ Countries  │ population_sum │ GDP_sum │
│     │ String     │ Int64          │ Int64   │
├─────┼────────────┼────────────────┼─────────┤
│ 1   │ Afganistan │ 543            │ 29      │
│ 2   │ Albainia   │ 1291           │ 152     │
│ 3   │ Andorra    │ 860            │ 88      │
│ 4   │ Angola     │ 1628           │ 104     │

但是在这种情况下，它更加冗长(如果您想在返回值之前对数据进行更复杂的预处理，那么它将非常有用)。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64666661

复制

相似问题

问Julia DataFrames.jl，Groupby和多列求和
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Julia DataFrames.jl，Groupby和多列求和EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Julia DataFrames.jl，Groupby和多列求和
EN