我想要达到的目标。
我的数据采用以下格式。每日天然气价格结算。A栏:2018年12月至2026年12月的各行-B栏:2018年12月至2026年12月的天然气开盘价-C栏:2018-2026年12月以前的天然气价格。
我想使用Python中的梯度增强算法来预测2026年12月以后的价格,但我认为通常情况下,该算法的输出在实现D矩阵和随后的命令之后返回某种数组,然后再运行几个步骤得到散点图。
有个问题。
使用数组(生成的数据),我不知道接下来该做什么来预测2026年12月及以后,因为我的散点图可能只需要进行训练和测试数据集并进行预测,但对我感兴趣的未来几年怎么办?
发布于 2018-11-13 15:36:59
如果你没有2026年以后的数据,那么你就无法知道你的模型在这些年里的表现有多好(这是同义的)。
我认为,在这种情况下,您可以做的一件事是根据数据的日期时间索引加权您的培训、验证和测试拆分。通过在培训中防止您的模型“预见未来”,您可以很好地了解您的目标有多可预测,并在培训之后测量模型在“未来”数据上的性能。想必,作为模型的维护者,当新的数据可用时,您将更新您的预测(并在培训中迭代)。
我想我还应该指出,对于这个问题,您还没有给出一个令人信服的理由来解释为什么只有xgboost才能解决这个问题。对于可能投入生产的模型,我鼓励您运行一些回归或更便宜的算法,并比较性能。如果你还没有检查一些模型选择工具,我认为这是值得你的时间!一个简单的开始是gridsearch:selection.GridSearchCV.html
https://stackoverflow.com/questions/53284217
复制相似问题