我每隔1分钟就有数据,我希望将粒度更改为5分钟,并使用这样的.groupby计算基本数据统计数据:
df2 = df1.groupby(pd.Grouper(freq='5Min',closed='right',label='right')).agg({
"value1": "mean", "value2": "max",
"value3": "quantile"})我也想得到四分位数/分位数数据,但不能指定特定的分位点。缺省值为50分位数。如何获得value3的第75分位数?
发布于 2022-08-11 22:13:05
传递给agg的值不必是字符串:它们可以是其他函数。您可以定义一个自定义函数,例如
def q75(series):
return series.quantile(0.75)然后把这个传递给agg,就像
df2 = df1.groupby(pd.Grouper(freq='5Min',closed='right',label='right')).agg({
"value1": "mean", "value2": "max",
"value3": q75})您甚至可以通过在列表中传递相同的属性来计算多个数量:
df2 = df1.groupby(pd.Grouper(freq='5Min', closed='right', label='right')).agg({
"value1": "mean", "value2": "max", "value3": [q25, q50, q75]})发布于 2022-08-11 19:45:49
您可以使用groupby.quantile函数。您将能够指定确切的分位数,甚至可以选择类型的插值。我不确定是否有可能一步到位地完成每一件事。您可能需要单独执行,然后将带有四分位数的列附加到df中。
链接到文档:https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.quantile.html
https://stackoverflow.com/questions/73325649
复制相似问题