首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python: pmdarima,autoarima不适用于大型数据

Python: pmdarima,autoarima不适用于大型数据
EN

Stack Overflow用户
提问于 2020-07-08 09:07:11
回答 2查看 2.5K关注 0票数 4

我有一个大约每15分钟就有80.000次观测的数据。假设季节参数m为96,因为每24h重复一次。当我在我的auto_arima算法中插入这些信息时,需要很长时间(几个小时)才能发出以下错误消息:

代码语言:javascript
复制
MemoryError: Unable to allocate 5.50 GiB for an array with shape (99, 99, 75361) and data type float64

我使用的代码:

代码语言:javascript
复制
stepwise_fit = auto_arima(df['Hges'], seasonal=True, m=96, stepwise=True, 
                          stationary=True, trace=True)
print(stepwise_fit.summary())

我试着重采样到每小时的值,将数据量和m因子减少到24,但我的计算机仍然无法计算结果。

如何在处理大数据时用auto_arima找到加权因子?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-07-08 22:58:08

我不记得我读到这篇文章的确切来源,但是auto.arima和pmdarima都没有真正优化到缩放,这可能解释了您所面临的问题。

但是,关于您的问题还有一些更重要的事情要注意:对于每15分钟的80K数据点,ARIMA可能不是最佳的用例模型类型:

  • 根据数据的频率和密度,很可能存在多个周期/季节模式,ARIMA只能处理一个季节性成分。因此,您至少应该尝试一个可以处理STS先知这样的多个季节的模型(R中的TBATS也可以处理多个季节性问题,但可能会遇到与auto.arima相同的问题,因为它在同一个包中)。
  • 在80K点和15分钟的测量间隔内,我假设您最有可能处理的是“物理”时间序列,即传感器或其他计量/监视设备(负载、网络流量等)的输出。这些类型的时间序列通常是LSTM或其他基于深度学习的模型的非常好的用例,而不是ARIMA。
票数 9
EN

Stack Overflow用户

发布于 2022-03-04 19:00:17

pmdarima不是很好的缩放。你应该试试autoarima of 状态预测。它是用numba编译成高效的机器代码。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63438979

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档