文章/答案/技术大牛

发布

社区首页 >问答首页 >用给定的时间增量和二进制或内插重采样时间序列

问用给定的时间增量和二进制或内插重采样时间序列
EN

Stack Overflow用户

提问于 2016-11-01 17:32:31

回答 1查看 554关注 0票数 2

我有一个简单的时间序列，由datetime值驱动(也就是说，它定期记录数据点)，Series1。

datetime,temp
2015-05-28 17:00:00,24.199
2015-05-28 17:15:00,24.465
2015-05-28 17:30:00,24.392
2015-05-28 17:45:00,25.094
2015-05-28 18:00:00,25.239
etc.

我正在尝试协调第二个时间序列，它由一个事件(表示为二进制值0和1) Series2驱动。

datetime,window   
2015-05-28 17:00:00,0.0
2015-05-28 17:55:28,1.0
2015-06-08 07:35:31,0.0
2015-06-08 08:04:30,1.0
2015-06-18 17:11:55,0.0
2015-06-18 18:11:52,1.0
2015-06-19 18:14:09,0.0
etc.

我想协调两者，即将事件驱动的时间序列表示为小时(或子小时)值。我假设这可能需要为Series2创建一个与Series1匹配的日期时间索引，并在窗口列中填充范围为[0,1]的值。这些值将来自某种类型的“时间绑定”，其中计算每个间隔所花费的时间百分比(时间间隔由Series1中随后行之间的日期时间差定义)。

希望这是有意义的。

我尝试过用不同的方法进行重采样，即series2_hr = series2.resample('H').bfill()，以及.mean和.last，但是这些方法都没有给我想要的输出。

我也曾尝试过插补：

series2_hr = series2.resample('H')
series2_hr = series2_hr.interpolate(method='time')

但同样没有运气。

期望的输出是给定时间间隔(例如每小时)的百分比，其中窗口值为1。换句话说，该小时窗口的平均值(从0到1)。

示例: series2

datetime,window   
2015-05-28 17:00:00,0.0
2015-05-28 17:55:28,1.0
2015-06-08 07:35:31,0.0
2015-06-08 08:04:30,1.0
2015-06-18 17:11:55,0.0
2015-06-18 18:11:52,1.0
2015-06-19 18:14:09,0.0
etc.

应该转换为series2_reg：

2015-05-28 17:00:00,0.916 (=(17:55 - 17:00)/60)
2015-05-28 18:00:00,1
2015-05-28 19:00:00,1
...
2015-06-08 07:00:00,0.583 (=(07:35 - 07:00)/60))
2015-06-08 08:00:00,0.06 (=(08:04 - 08:00)/60))
2015-06-08 09:00:00,1
2015-06-08 10:00:00,1
...

time-series

interpolation

timedelta

binning

pandas

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-11-01 19:56:54

import io
import pandas as pd

data = io.StringIO('''\
datetime,window   
2015-05-28 17:00:00,0.0
2015-05-28 17:55:28,1.0
2015-06-08 07:35:31,0.0
2015-06-08 08:04:30,1.0
2015-06-18 17:11:55,0.0
2015-06-18 18:11:52,1.0
2015-06-19 18:14:09,0.0
''')

s = pd.read_csv(data).set_index('datetime').squeeze()
s.index = pd.to_datetime(s.index)

从重采样到一分钟间隔开始，向前填充原始时间序列的条目.

upsampled = s.resample('min').ffill()
upsampled['2015-06-08 07:30':'2015-06-08 08:10']

# datetime
# 2015-06-08 07:30:00    1.0
# 2015-06-08 07:31:00    1.0
# 2015-06-08 07:32:00    1.0
# 2015-06-08 07:33:00    1.0
# 2015-06-08 07:34:00    1.0
# 2015-06-08 07:35:00    1.0
# 2015-06-08 07:36:00    0.0
# 2015-06-08 07:37:00    0.0
# 2015-06-08 07:38:00    0.0
# 2015-06-08 07:39:00    0.0
# 2015-06-08 07:40:00    0.0
# 2015-06-08 07:41:00    0.0
# 2015-06-08 07:42:00    0.0
# 2015-06-08 07:43:00    0.0
# 2015-06-08 07:44:00    0.0
# 2015-06-08 07:45:00    0.0
# 2015-06-08 07:46:00    0.0
# 2015-06-08 07:47:00    0.0
# 2015-06-08 07:48:00    0.0
# 2015-06-08 07:49:00    0.0
# 2015-06-08 07:50:00    0.0
# 2015-06-08 07:51:00    0.0
# 2015-06-08 07:52:00    0.0
# 2015-06-08 07:53:00    0.0
# 2015-06-08 07:54:00    0.0
# 2015-06-08 07:55:00    0.0
# 2015-06-08 07:56:00    0.0
# 2015-06-08 07:57:00    0.0
# 2015-06-08 07:58:00    0.0
# 2015-06-08 07:59:00    0.0
# 2015-06-08 08:00:00    0.0
# 2015-06-08 08:01:00    0.0
# 2015-06-08 08:02:00    0.0
# 2015-06-08 08:03:00    0.0
# 2015-06-08 08:04:00    0.0
# 2015-06-08 08:05:00    1.0
# 2015-06-08 08:06:00    1.0
# 2015-06-08 08:07:00    1.0
# 2015-06-08 08:08:00    1.0
# 2015-06-08 08:09:00    1.0
# 2015-06-08 08:10:00    1.0
# Freq: T, Name: window   , dtype: float64

然后按小时重采样，取每个间隔的平均值。

result = upsampled.resample('H').mean()
result['2015-06-08 06:00':'2015-06-08 09:00']

# datetime
# 2015-06-08 06:00:00    1.000000
# 2015-06-08 07:00:00    0.600000
# 2015-06-08 08:00:00    0.916667
# 2015-06-08 09:00:00    1.000000
# Freq: H, Name: window   , dtype: float64

注意，重采样将分配给具有事件值的一分钟。如果您的事件数据表示打开和关闭，这意味着在upsampled中的每一分钟在该时间段结束时都有该开关的状态。这就是为什么我的数字与你的数字不完全匹配的原因(而且，我相信你在2015-06-08 08:00:00的计算中有一个错误)。

由于事件的粒度一直到第二个，所以您可以按秒而不是按分钟进行上述重采样，从而实现window每小时平均值的更精确值。

upsampled = s.resample('s').ffill()
result = upsampled.resample('H').mean()
result['2015-06-08 06:00':'2015-06-08 09:00']

# datetime
# 2015-06-08 06:00:00    1.000000
# 2015-06-08 07:00:00    0.591944
# 2015-06-08 08:00:00    0.925000
# 2015-06-08 09:00:00    1.000000
# Freq: H, Name: window   , dtype: float64

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40365430

复制

相似问题

问用给定的时间增量和二进制或内插重采样时间序列
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用给定的时间增量和二进制或内插重采样时间序列EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用给定的时间增量和二进制或内插重采样时间序列
EN