假设你正在建立一个销售预测模型来预测明天的销售价值,以及接下来的2周的日销售额。该模型正在使用过去1.5年的每日数据进行培训,并遵循一种强有力的每周季节性模式。
显然,一旦你对模型的表现感到满意,是否有必要每天对模型进行重新训练,以捕获到昨天的数据,并包括昨天,以便对明天的销售价值做出最准确的预测?从本质上讲,该模型将接受1.5年滚动数据的培训,以捕捉昨日的销售价值。
还是取决于所使用的模型类型?是否需要在出现新数据时完全重新训练?
我明白为什么重新训练你的标准时间序列预测模型(ARIMA等)是有意义的,但我也能理解更复杂的模型(神经网络等)。可以一概而论,不必每天重新训练。
我正在寻找一个模型的解释,当新的时间序列数据出现时,你会和不会重新训练。
发布于 2020-03-27 13:54:01
偶尔对模型进行再培训是很好的做法。当然,这取决于具体的任务。这是因为无数无法衡量的事物不断变化。
想一想一个预测公司收入的模型:游戏规则不断变化,今天的市场不像一年前的市场,更不用说五年前的市场了。这是我考虑过的第一个例子,但对于几乎所有可能的ML应用程序来说都是如此。
这就是为什么人们观察到,模型的性能随着时间的推移而恶化。因此,最好的做法是让您的模型更新新的数据。
发布于 2020-02-26 08:49:17
你是对的,就像通常在ML中一样,它完全取决于你的数据和你的模型概括的能力。
没有一般的规则。理想情况下,应该经常对模型进行重新校准。“经常”这个概念完全取决于你的问题。但在实践中,应考虑到统计和业务方面的考虑。
统计方面的考虑主要围绕新数据的可用性(如果您有每年一次的数据收集过程,那么在年中重新校准是个坏主意),以及底层数据生成过程的演变。通过研究关于变量/输出分布的基本统计数据,您可以尝试观察底层流程的演变,但这只会给出部分答案。对于这些统计考虑,唯一真正的答案是重新校准模型,并将结果与前面的结果进行比较。因此,此时您最好使用新模型(如果您没有任何操作理性考虑)。
操作理性的考虑围绕着重新校准过程中的困难和将新的模式投入生产。这个过程是自动化的吗?它是否需要特定的数据超出?重新校准容易吗?资源(人力/硬件)是否可用于此?
请注意,一些约束也可能是监管性的:在某些领域中,有一些内部准则/外部规则,它们使模型重新校准的频率降到最低。
发布于 2020-11-29 11:18:27
在某些情况下,您知道潜在的过程略有变化,一个好的行动方针是有一个自适应的预测模型。因此,模型参数在每一次新的观测(类似于在线学习)时都会被稍微重新校准。一个例子是预测风力涡轮机的输出功率:由于叶片变脏和天气变化缓慢等因素,建立一个时间适应模型实际上最符合你的利益。
此外,局部学习算法本质上是在每一个新的观察中重新训练,因为核权重是重新估计的。这包括k-NN、核回归、局部线性回归等算法。在这种情况下,训练总是在需要预测时进行;唯一的要求是更新您的历史观察。
关于再培训批量模型,我还没有看到普遍的共识,只是经验的证据。在一些应用中,如电价预测,很多研究人员采用滚动的方法对模型进行再训练。滚动窗口的长度通常是最长季节周期长度的2倍。有时,这种方法与指数衰减的权重相结合。然而,我注意到,这通常适用于来自计量经济学背景的研究人员,而不是机器学习/计算智能。
https://datascience.stackexchange.com/questions/51520
复制相似问题