我在数据帧中有一个带有偏移量的ISO时间的字段:
pages[['dimension1', 'dimension3']].head()
dimension1 dimension3
1572461291083.sanyrqy8 2019-10-30T14:45:42.71-04:00大多数行都很好,但有些行在24小时外设置了一个断点。
x = pd.to_datetime(pages.dimension3)ValueError:偏移量必须严格地介于-timedelta(hours=24)和timedelta(hours=24)之间。
下面是一个导致此错误的流氓数据点的示例:
2019-11-11T07:08:09.640-31:00我目前的任务不是解决为什么数据以这种方式存在,而是简单地将原始数据输入Postgres。
在这个领域中,如果偏移量大于24,我可以在使用to_datetime()时告诉熊猫,如果偏移量大于24,我是否可以使用其他逻辑将其更改为24?这将将上面的流氓示例更改为2019-11-11T07:08:09.640-24:00。
我怎么能和潘达斯一起这么做?
发布于 2019-12-15 08:44:45
使用丁香醇。它很适合分析会产生错误的日期
import dateutil
dateutil.parser.parse('2019-10-30T14:45:42.71-04:00')
# datetime.datetime(2019, 10, 30, 14, 45, 42, 710000, tzinfo=tzoffset(None, -14400))
dateutil.parser.parse('2019-11-11T07:08:09.640-31:00')
# datetime.datetime(2019, 11, 11, 7, 8, 9, 640000, tzinfo=tzoffset(None, -111600))https://stackoverflow.com/questions/59341501
复制相似问题