我正在开发一种算法,该算法将预测这家餐厅未来的流量。我混淆了这两种方法中的哪一种:线性回归或时间序列分析,作为我的算法的基础。我使用的特点是:天,是否有节日,温度,气候条件,目前的评级,是否有假日,服务等级,评论次数等。
请指导我该怎么做。此外,我如何优化我的算法,以便它可以学习的时间。
发布于 2017-10-05 12:15:14
您所拥有的数据是面板数据,它是横截面数据和时间序列的组合。
您可以尝试使用回归模型,为您的数据.Like提供时间戳,维护基于工作日(1至7).or的一个功能,如果您的数据中有趋势和季节性,您可以将周数作为特征(0到53)周。
发布于 2017-08-05 16:20:44
你为什么不两者都试试?测试测试和交叉验证集中方法的准确性。运用学习曲线相关技术得出实验逻辑结论。记住,这是数据“科学”!
发布于 2017-09-05 08:49:15
我认为线性回归比时间序列分析更可行,因为我认为你有很多分类变量,而时间序列分析在纯数字数据下效果更好。
你的许多分类语言很可能是NA,许多可能具有很高的基数,因此可能不适合于单一的热编码。因此,您必须选择一种算法,它可以很好地处理NA值,并且能够处理许多唯一的分类变量,这些变量变成了指示变量。您还可以通过适当的预处理来处理这一问题。
此外,您也没有告诉use您的数据集是有子日(例如每小时)还是每天的分辨率。我认为每天的分辨率太粗糙(天气可能每天变化几次),到达的客人可能在早上或晚上到达高峰。因此,当你想要确定周期性时,时间序列分析就会显现出来(在大多数餐馆的工作日里,这很可能是按小时计算的),但你的变量似乎是在日常水平上,而且不那么容易预测。
https://datascience.stackexchange.com/questions/21982
复制相似问题