我有这样的熊猫数据框架
date hour level
0 2015-10-27 0 2.5
1 2015-10-27 1 2.5
2 2015-10-27 2 2.5
3 2015-10-27 3 2.5
4 2015-10-28 0 0.0
5 2015-10-28 1 0.0
6 2015-10-28 2 0.0
7 2015-10-28 3 0.0
8 2015-10-28 4 0.0
...
14 2015-10-29 0 3.23
15 2015-10-29 1 3.23
...hour总是从0开始,增量为1;它可能达到或不可能达到23。date一次递增一天,但日期条目的数量可能因日期而异,例如- 2015-10-27有4个条目,而2015-10-28则上升到第13行。对于该日期,level条目的值总是相同的,但该值可能出现在另一个日期,也可能不会出现。
我想要的是这份表格的字典
{'2015-10-27': '3', ..., '2015-10-29': '4', ...}字典值表示level所处的范围,即如果level为2.5,则为[2,3]。我想做的只是选择每个“块”的第一行并创建一个新的数据框架,然后迭代并应用10个if语句(级别的最大值为9.xx),或者可能使用一个上限函数。但我也不知道该怎么做,而且看起来很笨拙。
是否有更精简的方法来做到这一点?
发布于 2015-10-27 08:49:45
如果每个日期的level的所有值都在相同的范围内,则可以根据date (使用DataFrame.groupby() )分组,然后取max for level列,然后将所有值(到上限)删除,然后使用Series.to_dict()将该系列转换为字典。例子-
df.groupby('date')['level'].first().apply(np.ceil).to_dict()演示-
In [44]: df
Out[44]:
date hour level
0 2015-10-27 0 2.50
1 2015-10-27 1 2.50
2 2015-10-27 2 2.50
3 2015-10-27 3 2.50
4 2015-10-28 0 0.00
5 2015-10-28 1 0.00
6 2015-10-28 2 0.00
7 2015-10-28 3 0.00
8 2015-10-28 4 0.00
14 2015-10-29 0 3.23
15 2015-10-29 1 3.23
In [45]: df.groupby('date')['level'].first().apply(np.ceil).to_dict()
Out[45]: {'2015-10-27': 3.0, '2015-10-28': 0.0, '2015-10-29': 4.0}如果要将字典中的值转换为int,则可以在使用Series.astype()方法转换为字典之前将值转换为Series.astype()。例子-
In [46]: df.groupby('date')['level'].first().apply(np.ceil).astype(int).to_dict()
Out[46]: {'2015-10-27': 3, '2015-10-28': 0, '2015-10-29': 4}https://stackoverflow.com/questions/33362140
复制相似问题