我想从历史数据中预测从2018年1/1/2018到1/1/2020的小企业收入(除日期外,我的所有变量都是数字的),我的数据的起始日期是1/1/2012。收入每3个月更新一次(2018年1月1日,我有x收入,2015年3月30日,我有新收入),我不知道在这种情况下该如何处理日期。
我做了以下工作:
1-读取数据
2-数据分析
3-将日期列转换为类型日期4-排序日期
5-将数据分开(培训数据从2012年1月1日至2017年12月30日,测试数据从2018年1月1日至2020年1月1日)
6-将日期转换为数字
7-规范除日期列之外的所有列。
8-执行RF
9-使用测试数据集进行预测
在这个场景中,我没有更改日期格式,但我觉得这可能不是处理日期格式的最佳方法。
发布于 2022-06-14 12:54:51
随机森林需要将日期处理为数字数据,这就是为什么可以使用日期、工作日、月份、三个月和年份作为分隔字段的原因。
此外,如果数据具有循环行为,则可以将数据与其对齐。
例如,如果您的数据周期为3个月,您可以具有以下特性:三个月的日期(从1到90)、工作日、三个月和一年。这将有助于找到有趣的模式。
注意:在随机森林处理之后,您可能希望将三个月的一天转换为yyyy,以获得更好的清晰度。
https://datascience.stackexchange.com/questions/111810
复制相似问题