我有一个数据挖掘的问题,想听听你对方法部分的建议/意见。
这是一个多类问题,我需要建立分类器,对于一个新的数据点,算法应该能够识别该数据点是属于现有的类还是属于新的类(C+1)。
我目前遵循的方法是,如果特定类的概率>60%,则记录被分类到该类,如果没有一个类的概率大于60%,则记录将被分类到新类(C+1)。
但是新类别识别的准确率很低(~30%到40%)。我用的是C5.0的boosted决策树算法。
95%的特征具有二进制数据。
请任何人为此提出任何其他替代方法/算法。
Sri
发布于 2016-11-29 10:49:20
有许多监督分类方案,对于R的情况,一个更好的选择是使用e1071包的支持向量机分类。我还建议尝试和评估softmax神经网络。
https://stackoverflow.com/questions/40840085
复制相似问题