我正在为机器学习准备一个数据帧。该数据集包含澳大利亚几个气象站10年来的天气数据。测量的属性之一是蒸发量。它有大约50%的缺失值。现在我想找出,缺失值是均匀分布在所有气象站,还是大约一半的气象站从未测量过蒸发量。
如何找出一个值与另一个属性组合的分布情况?我基本上想在气象站上循环,并获得NaNs和正常值的计数。
rain_df.query('Location == "Albury"').Location.count()这给了我来自奥尔伯里weaher站的测量点的数量。现在,我如何才能找出在奥尔伯里与正常(非NaN)测量相比,有多少NaN被测量?
发布于 2021-04-09 19:04:08
您可以使用.isnull()对一个系列进行掩码,对NaNs使用True,对其他所有内容使用False。然后,您可以使用.value_counts(normalize=True)来获取该系列中NaN和非NaN的比例。
rain_df.query('Location == "Albury"').Location.isnull().value_counts(normalize=True)https://stackoverflow.com/questions/67019115
复制相似问题