在我的熊猫数据框中,我想找出以月为单位的日期差异。函数.dt.to_period('M')将生成一个类似于<11 * MonthEnds>的MonthEnd对象,而不是月份数字。
我尝试使用pd.to_numeric()更改列类型,并使用re.sub("[^0-9]", "", 'blablabla123bla')删除字母。这两种方法都不适用于MonthEnd对象。
df['duration_dataset'] = df['date_1'].dt.to_period('M') - df['date_2'].dt.to_period('M')我期望是11,但是输出是<11 * MonthEnds>。
这是最小的数据帧
d = {'date_1': ['2018-03-31','2018-09-30'], 'date_2': ['2017-12-31','2017-12-31']}
df = pd.DataFrame(data=d)
df['date_1'] = pd.to_datetime(df['date_1'], format='%Y-%m-%d')
df['date_2'] = pd.to_datetime(df['date_2'], format='%Y-%m-%d')
df['duration_dataset'] = df['date_1'].dt.to_period('M') - df['date_2'].dt.to_period('M')
df发布于 2019-02-01 00:47:36
这是new behaviour in Pandas 0.24,其中减去Period()对象会得到一个DateOffset subclass。
您可以从DateOffset.n属性中获取数值:
from operator import attrgetter
df['duration_dataset'] = (
df['date_1'].dt.to_period('M') -
df['date_2'].dt.to_period('M')).apply(attrgetter('n'))这就产生了
date_1 date_2 duration_dataset
0 2018-03-31 2017-12-31 3
1 2018-09-30 2017-12-31 9用于您的样本数据帧。
您可以将日期转换为0年以来的月份计数,然后减去这些数字,而不是将日期转换为期间:
df['duration_dataset'] = (
df['date_1'].dt.year * 12 + df['date_1'].dt.month - 1 -
(df['date_2'].dt.year * 12 + df['date_2'].dt.month - 1)
)它可以简化为
df['duration_dataset'] = (
12 * (df['date_1'].dt.year - df['date_2'].dt.year) +
df['date_1'].dt.month - df['date_2'].dt.month
)发布于 2020-04-29 12:05:40
您也可以使用astype('int')将Period强制为int,并直接取差值:
df['duration_dataset'] = df['date_1'].dt.to_period('M').astype('int') - df['date_2'].dt.to_period('M').astype('int')它看起来更快。
https://stackoverflow.com/questions/54465030
复制相似问题