在我的课堂项目中,我正在编写Kaggle比赛-别被踢。
这个项目将测试数据归类为汽车的好/坏购买。有34个特征,数据是高度倾斜的。我做了以下选择:
我研究了一下,发现了这些链接,但这些没有什么特别的帮助-
最近邻度量,它说找出你自己的距离度量就相当于“核化”,但是它没有多大意义。
( kNN的距离无关逼近谈论R-树、M-树等,我认为这不适用于我的情况.
如果你需要更多的信息,请告诉我。
发布于 2014-11-27 22:52:17
发布于 2018-02-05 11:20:56
我在看同样的问题。
关于k的选择,建议为避免获得“票数相等”而将其作为一个奇数。
我希望在将来扩展这个答案。
https://stackoverflow.com/questions/27168756
复制相似问题