我有204个数据和6个属性。

当我使用这个脚本model = C5.0(dataset1[,-7], dataset1[,7])创建包含所有数据的模型时,结果没有给出如下图所示的节点。

但是,如果我在这个脚本model = C5.0(dataset1[1:100,-7], dataset1[1:100,7])中使用100个数据,结果会给出一个很好的决策树,如下图所示。

有什么问题吗?问题出在数据上吗?谢谢。
发布于 2020-02-19 21:53:52
检查你的树的展示,很容易看到发生了什么。第二个模型只使用100个点,并不是一个比第一个更好的模型。当您给C5.0更多的数据时,它正确地确定了更简单的模型更好。看看结果。
第一棵树(全部204个点)预测所有东西都是Lancar,错误率为27% (204个错误中有55个)。
节点2预测Lancar为55个点,误差为25.5% (14个误差)。
节点4预测Lancar为25个点,误差为28.0% (7个误差)。
节点7预测Macet为12个点,误差为41.7% (5个误差)。
总误差为30 / 100或30.0% -比更简单模型的27%的错误率更差。C5.0简单地确定了可用的最佳模型是预测所有点都在多数类中(Lancar)。
https://stackoverflow.com/questions/60300255
复制相似问题