Python/R/Julia中的数据处理工具多如牛毛「如pandas、spark、DataFrames.jl、polars、dask、dplyr、data.table、datatable等等」,如何根据项目需求挑选趁手的武器 Python工具 dask pandas datatable cuDF Polars Arrow Modin 2种R工具 data.table dplyr 1种Julia工具 DataFrames.jl
作者 | Sergio De Simone 译者 | 张卫滨 JuliaCon 2020 刚刚结束,华沙经济学院的教授和 DataFrames.jl 项目的维护者 Bogumił Kamiński总结了 就提交的数量而言,我在 Julia 语言的贡献者中排名前 5%,是 Julia 数据生态系统的重要贡献者,尤其值得一提的是,我还是 DataFrames.jl 的核心维护者。 例如,作为DataFrames.jl的维护者,我可以告诉你,最近大多数的 PR 都是文档相关的。但是,在这里我不会低估 Julia 社区。 同时,作为 DataFrames.jl 的维护者,我注意到了这样一种转变,那就是从来没有参与过包“核心”开发的人正在提出 issue/ 提交 PR,并在社交媒体上讨论相关的功能。
Python用到了:(py)datatable, pandas, dask, cuDF(moding.pandas在下文作者亲自测试了下); R: data.table, dplyr; julia: DataFrames.jl