我最近发现了一种模型,可以根据叶子的大小对爱尔兰花进行分类。有3种类型的花作为目标(因变量)。据我所知,分类数据应该进行编码,以便在机器学习中使用。然而,在该模型中,数据是直接使用的,而不需要编码过程。有人能解释一下什么时候使用编码吗?提前谢谢你!
发布于 2020-07-16 16:55:35
相关问题-连续特征变量的编码。最初,Iris数据是由Fisher在发布线性判别分类器时发布的。
一般而言,在以下各项之间有区别:
线性判别分析和二次判别分析是实值分类器。尝试将离散变量添加为额外输入不起作用。已经开发了在判别分析中使用指示变量(统计学中使用的名称)的特殊程序。此外,k-近邻分类器只适用于实值特征变量。
朴素贝叶斯分类器最常用于具有离散特征的分类问题。当你不想假设特征变量之间的条件独立时,多项式分类器可以应用于离散特征。insight classifiers是一个分类器服务,可以一气呵成地为您完成这一切。
神经网络和支持向量机结合了实值和离散特征。我的建议是为每个离散的结果使用一个单独的输入节点-不要使用一个输入节点,该节点提供的值如下:(:small,1:minor,2:medium,3:较大,<代码>E1174:big)。每结果一个输入节点编码将改善您的训练结果,并产生更好的测试集性能。
随机森林分类器还无缝地结合了实值和离散特征。
最后的建议是训练和测试集比较至少4种不同类型的分类器,因为没有通用的最好类型的分类器。
https://stackoverflow.com/questions/62926150
复制相似问题