我正在使用R的“离散化”包,当我找到切入点时,我得到了以下结果。
命令:
discretization::cutPoints(data3$Dist_to_Stream, data3$Malaria_w3)其中Dist_to_Stream是数值变量,Malaria_w3是类(分类)
[1] 5.118175 95.484400 119.386500 300.842000 311.320500
[6] 338.104000 387.722500 460.783000 472.821500 551.741500
[11] 910.745500 214.143000 234.124500 260.812000 358.513000
[16] 361.015500 449.447500 538.411500 589.118500 626.888000
[21] 657.261000 648.304500 698.310500 953.814500 1091.265000
[26] 1181.350000 2023.885000 2040.360000 2069.390000 2201.395000
[31] 2120.185000 2142.255000 2456.820000 2819.860000输出切点太多(34个桶)。在监督(基于熵)入库时,有没有办法控制切割点的数量?
提前谢谢..
发布于 2015-10-16 23:09:10
R的discretization包的函数没有提供任何这样的参数来控制箱的数量(Discretization Documentation)。这可以通过SPSS的Optimal Binning选项轻松完成。在执行入库之前,可以设置入库的最大数量(仍然是有监督的入库)。
有关更多信息,请访问Optimal Binning。
https://stackoverflow.com/questions/33144529
复制相似问题