我试图在DataFrame列上找到一个统计量(基尼系数),其中我需要传递特定列的所有值才能计算统计量(基尼系数)。
在这里,统计函数需要“值列表”并返回整数。为了从DataFrame列收集值列表,我尝试了以下2种方法。
方法1:
办法2:
但这两种方法的效果似乎都非常缓慢。
请您分享一下您的建议或其他有效的方法。
你好,尼拉杰
发布于 2017-07-31 19:40:11
如果对数据进行了排序,并且没有负或零,则可以使用本页中描述的第三个公式计算基尼系数:
Python的实现可在https://github.com/oliviaguest/gini上使用。
使用dataframe的df.groupBy().sum()操作计算和是很容易的。
https://stackoverflow.com/questions/41407135
复制相似问题