据我所知,在进行特征工程之前,必须将数据集分成训练数据和测试数据,以避免分析中的偏差。我还了解到,机器学习模型除了数字数据之外不理解数据,因此需要编码,这是特征工程的一部分。我的问题是,我是单独编码测试数据,还是预测函数理解分类数据。
发布于 2019-11-07 09:14:31
这在一定程度上取决于模型和语言(实现)。
首先,请理解分类数据与非数字数据是不一样的!许多模型可以很好地处理分类数据(例如回归格式),有些模型甚至可以处理非数字数据。
最后,对于您来说,最重要的是,在火车/测试拆分之前,必须对整个数据集进行特性工程。所有的模型只能预测数据,它的输入格式与它所训练的数据完全相同!
所以,是的,如果你对某一列进行了一次热编码,它也需要对预测进行一次热编码。
发布于 2019-11-06 21:13:47
如果要确保测试数据具有与火车集类似的类,则可以在用于Python的科学学习列车测试拆分中使用分层选项,或在Caret为R中使用分层选项。
https://datascience.stackexchange.com/questions/62794
复制相似问题