问使用分类数据作为要素/目标，而不对其进行编码
EN

Stack Overflow用户

提问于 2020-07-16 09:41:20

回答 1查看 48关注 0票数 0

我最近发现了一种模型，可以根据叶子的大小对爱尔兰花进行分类。有3种类型的花作为目标(因变量)。据我所知，分类数据应该进行编码，以便在机器学习中使用。然而，在该模型中，数据是直接使用的，而不需要编码过程。有人能解释一下什么时候使用编码吗？提前谢谢你！

发布于 2020-07-16 16:55:35

相关问题-连续特征变量的编码。最初，Iris数据是由Fisher在发布线性判别分类器时发布的。

一般而言，在以下各项之间有区别：

线性判别分析和二次判别分析是实值分类器。尝试将离散变量添加为额外输入不起作用。已经开发了在判别分析中使用指示变量(统计学中使用的名称)的特殊程序。此外，k-近邻分类器只适用于实值特征变量。

朴素贝叶斯分类器最常用于具有离散特征的分类问题。当你不想假设特征变量之间的条件独立时，多项式分类器可以应用于离散特征。insight classifiers是一个分类器服务，可以一气呵成地为您完成这一切。

神经网络和支持向量机结合了实值和离散特征。我的建议是为每个离散的结果使用一个单独的输入节点-不要使用一个输入节点，该节点提供的值如下：(：small，1：minor，2：medium，3：较大，<代码>E1174：big)。每结果一个输入节点编码将改善您的训练结果，并产生更好的测试集性能。

随机森林分类器还无缝地结合了实值和离散特征。

最后的建议是训练和测试集比较至少4种不同类型的分类器，因为没有通用的最好类型的分类器。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62926150

复制

相似问题

问使用分类数据作为要素/目标，而不对其进行编码EN