我试图比较填充NA值之前和之后的差异,然后使用describe()方法。
例如,第一次数据访问:
idx A B
1 NA 5
2 NA 4
3 3 3
4 5 NA
5 6 7填后na
idx A B
1 3 5
2 3 4
3 3 3
4 3 3
5 6 7我希望用随机数据组合来描述填充NA值后数据之间的差异。原来的dataframe有80k行,不同的列约有30%的na (共30列)。
理想结果:没有变化的结果应该显示0,结果随变化将显示差异(即,mean=2 (从3到5))
尝试1:用方法手动减去它们,但它并不像我所希望的那样干净。
尝试2:创建两个dataframe,并使用比较,然后描述,这能被清理吗?
非常感谢。
发布于 2022-08-27 22:39:20
df1.describe() - df2.describe()会在您的数据文件中生成这个结果:
idx A B
count 0.0 -2.000000 -1.000000
mean 0.0 1.066667 0.350000
std 0.0 0.185884 0.034505
min 0.0 0.000000 0.000000
25% 0.0 1.000000 0.750000
50% 0.0 2.000000 0.500000
75% 0.0 2.500000 0.500000
max 0.0 0.000000 0.000000https://stackoverflow.com/questions/73514456
复制相似问题