我从网上收集了一堆数据,试图预测体育比赛的结果!但是,现在我发现自己困惑于如何为培训准备数据集。基本上,我有一个DataFrame,它看起来如下所示,当然还有更多的列
HomeTeam AwayTeam HTR HF AF HomePlayStyle AwayPlayStyle
Date
2014-08-16 Arsenal Crystal Palace D 13.0 19.0 4-1-4-1 4-2-3-1
2014-08-16 Leicester Everton A 16.0 10.0 4-4-2 double 6 4-2-3-1
2014-08-16 Man United Swansea A 14.0 20.0 3-5-2 3-5-2
2014-08-16 QPR Hull City D 10.0 10.0 5-3-2 5-4-1
2014-08-16 Stoke City Aston Villa D 14.0 9.0 4-2-3-1 4-3-3 Attacking我的因变量(我需要预测)将是HTR(3类:d-平局,A-客场赢,H-主场赢)。但是在培训之前,由于我需要准备数据集,我认为我需要使用一种热编码来将列HomeTeam、AwayTeam、HomePlayStyle、AwayPlayStyle更改为零和1。不过,我对这种做法有几点怀疑:
任何想法都会很感激的。
编辑: 3.我如何确保我的算法实现了HomePlayStyle_4-2-3-1(在得到假人之后)实际上表示的是HomeTeam而不是AwayTeam?是否存在连接列这样的东西,这样我就可以知道哪些列属于HomeTeam,哪些属于AwayTeam。
发布于 2020-06-01 22:07:24
在CrossValidate之前,你问题的理论部分似乎更合适,所以我将简要地谈谈这个问题。至于一种热编码,对我来说最简单的方法是通过熊猫:
categorical_cols = ['HomeTeam', 'AwayTeam', 'HomePlayStyle', 'AwayPlayStyle']
X = pd.get_dummies(df, columns=categorical_cols)这将为格式为{column_name}_{column_value}的每个列中的每个可能的值创建一个列,因此您将得到类似于HomeTeam_Arsenal的列。
变量的问题取决于您正在考虑使用的模型类型。多元共线性可能是Logistic回归中的一个问题,但在随机森林中的问题可能不多。而且,永远不要忘记,商业知识是非常重要的,所以如果你知道球队在主场或客场比赛时的胜率不同,那么你应该把这一点包括在你的模型中。如果您不确定,那么测试这两个选项。机器学习是一个非常迭代的过程,所以不要害怕尝试许多选项。
https://stackoverflow.com/questions/62141626
复制相似问题