我想知道相关图在机械加工中的应用。例如,如果有两个高相关性的特征,应该在添加算法之前删除其中的任何一个,或者它取决于每个数据集。任何解释都会很有帮助。提前谢谢。
发布于 2016-11-06 10:28:19
那得看情况。两个特征之间的高度相关性表明它们代表了几乎相同的信息。对于聚类等问题,去除冗余特征往往是有用的,而在xgboost中的梯度增强算法则完全不受这些特征的影响。因此,这取决于您想要对您的数据集做什么。
根据我的观点,如果您的数据集有太多的特征,那么我建议检查这些特征之间的相关性,并应用PCA来降低数据集的维度,特别是在您正在执行像聚类或回归这样的任务时。
https://datascience.stackexchange.com/questions/14942
复制相似问题