我有一个具有大量功能(大约3000)和二进制目标变量的数据集。之所以我有太多的特性,是因为我的数据集中有一个热编码--许多分类变量。
我认为逻辑回归可能只适用于少量的特性。
因此,考虑到我有很多特征,我应该使用哪种算法来获得更好的分类分数?
我的目标是增加中华民国-AUC的这一分类任务的度量.
使用支持向量机还是神经网络更好?
发布于 2020-09-14 14:45:43
我想到的第一件事就是做不同的编码。有一些方法可以处理高基数的分类数据,例如:标签编码或著名的目标编码。在此之前,我将建议更改编码类型。
但是,既然你的问题是用哪个预测器来处理小数据和空间数据。我将继续使用logistic回归、决策树或支持向量机。当数据很小时,所有算法的工作原理都很相似。
像兰登森林这样的东西可能表现得很好,因为它们会引导数据,这往往是一种用替换来采样数据的方法。
https://datascience.stackexchange.com/questions/81632
复制相似问题