我正在kNN的帮助下开发一个推荐引擎。然而,数据是稀疏的,大约有1500个样本和大约200个特征。我有一个值为1或0的序数目标。
有什么技术可以为它做特征选择呢?我假设如果我选择随机森林进行特征选择,那么选择的特征可能与kNN假设的重要特征不同。
另外,对于包含我的样本数量如此之少的特征数量,是否有任何限制?
发布于 2017-05-03 20:01:26
特征选择技术希望要么排除不相关的特征,要么排除冗余的特征。一种成熟的技术是使用Supervized discretization based on entropy (一些更通用的解释可以在here中找到)来有意义地减少数据的大小,然后使用信息增益来获得与目标变量最相关的前k个特征。你可以尝试至少5种不同的方法,这也取决于你用来实现你的应用程序的ml库/框架。
发布于 2017-09-24 04:39:03
我会尝试使用Relief算法,因为它的核心部分是最近邻搜索。
https://stackoverflow.com/questions/42016078
复制相似问题