我正试着用过去的成绩来预测足球成绩。我拥有的数据集只包括主队、客场队、主队进球和客场队在每一场比赛中的进球。如何使用数据集上的有限数据来使用随机森林算法和朴素贝叶斯算法对此进行建模?
发布于 2019-01-22 19:13:22
你有两个分类特征(团队名称)和两个连续特征(得分)。由于足球通常不是一种高得分的比赛,所以不需要标准化,所以连续的特征很可能保持在一个较低的值上。
您可能需要团队名称的虚拟变量,因为文本名称作为大多数分类库的特性可能不太好。针对这一任务研究滑雪板顺序编码器。
查看可用的滑雪板分类算法并尝试实现其中的几个。
你的反应变量将是两个预测的分数。一个是回家的,一个是离家的。或者,您可能会决定,响应变量可以简单地作为分数预期传播的一个“扩展”功能。
发布于 2019-01-22 22:23:33
Steven的回答是正确的,但在选择过去使用的数据时,它给您留下了一个具有挑战性的决定。最近的数据比几年前的数据更能预测未来的游戏。
我更好的解决方案可能是使用类似于elo评分系统的方法,它假设每个团队都有不同的技术水平,这在不同的游戏中是不同的。每支球队的elo评分会在每场比赛的胜负之后根据胜利者和输家进行更新。奈特银因在体育预测中使用elo而广受欢迎。
https://datascience.stackexchange.com/questions/44392
相似问题