我用的是熊猫版本:“0.23.4”
在调试我的代码时,我意识到,std和斜交没有给出正确的滚动窗口结果。检查下面的代码:
import pandas as pd
import numpy as np
import scipy.stats as sp
df = pd.DataFrame(np.random.randint(1,10,(5)))
df_w = df.rolling(window=3, min_periods=1)
m1 = df_w.apply(lambda x: np.mean(x))
m2 = df_w.mean()
s1 = df_w.apply(lambda x: np.std(x))
s2 = df_w.std()
sk1 = df_w.apply(lambda x: sp.skew(x))
sk2 = df_w.skew()虽然平均值的结果是相同的,但对性病和斜率没有?这是预期的行为还是我遗漏了什么?
发布于 2018-08-20 17:14:43
差别在于指定的增量自由度。
Numpy使用ddof 默认为0,而熊猫使用ddof 作为缺省值为1。此值影响计算std的方式(具体而言,如何将其规范化,例如参考这里)
如果将两者都指定为0,则结果是相同的。
s1 = df_w.apply(lambda k: np.std(k, ddof=0), raw=True)
s2 = df_w.std(ddof=0)
>>> (s1==s2).all()
True同样,对于skew,熊猫计算偏度,而scipy 计算偏倚。计算
因此,要获得相同的结果,只需在bias=False中指定scipy
sk1 = df_w.apply(lambda x: sp.skew(x, bias=False))
sk2 = df_w.skew()
>>> (sk1==sk2).all()
Truehttps://stackoverflow.com/questions/51935456
复制相似问题