当使用线性回归或最小二乘法等算法时,具有重复或高度相关的特征对模型是有害的。对于基于树的模型,它们通常不会受到高度相关特征的强烈影响。不存在像最小二乘那样的数值稳定性问题。
但是神经网络会发生什么呢?大多数关于神经网络的文献都是针对图像、信号的,对表格数据的研究也不多。
有重复特征的表格数据神经网络模型,它是否会损害准确性?或者NN能够选择特征?
发布于 2020-11-09 08:32:33
严格的理论上说,
这就是为什么:我们已经从数学上知道NN可以近似任何函数。因此,假设我们有输入X,X是高度相关的,我们不能应用去相关技术。主要是,您得到的X`具有不同的数字表示形式。神经网络很可能很难学会映射到输出y,但在理论上,你仍然可以改变结构,训练更长的时间,你仍然可以得到同样的近似,也就是精度。
现在,理论和实践在理论上是相同的,但在实践中是不同的,我怀疑这种对体系结构等的调整在现实中会根据数据集的不同而付出更大的代价。
发布于 2020-11-10 10:51:13
从对表格数据使用NN的经验来看,变量过多似乎不会直接影响统计性能。然而,它对模型的内存利用率、计算时间和可解释性都有很大的影响。减少内存使用和计算时间允许校准更多的模型(更多的随机初始化),并建立更好的组件。反过来,这允许稍微更好的性能,更重要的是,对于更稳定的模型(即性能不依赖于随机初始化)。根据应用程序和谁将使用模型(数据科学家或操作人员),可解释性可能是特征选择的主要驱动因素。(模型稳定性通常也意味着可解释的稳定性)。
除了仔细的探索性数据分析/基于先验专家的选择之外,神经网络中变量选择最实用的方法是在网络校准过程中增加正则化。也就是说,L1惩罚,通过倾向于将权重降到0,就可以作为特征选择。它可能需要做一些超参数调整(校准多个NN,看看哪个值更好)。平行使用其他正则化技术,如退出,一般帮助应用的重量调整,并允许更坚固的模型。
在修剪(移除连接/神经元)方面似乎有一些正在进行的工作,这些工作似乎同样有效,并取得了良好的效果。直观地说,它应该工作得更好,因为它将适应神经网络结构。不确定这些技术是否在任何流行的库中实现。
另一种方法是后验工作。由于某些特性的重要性,您可以删除总体上没有用的变量。你甚至可以反复这样做..。但这需要大量的时间和工作。
老实说,这些方法似乎可以在本地删除一些怪胎/非信息变量,但我不确定它们是否会完美地删除有意义的特性的复制,就像树技术通过选择其中之一所做的那样。关于重复的有意义特征的问题,我试着做一些关于后验重要性的工作,以检查我是否能通过观察相关的重要性来找到它们,但是没有什么真正的实用的/泛化的,超过两个变量之间的线性依赖。所以,你的问题的真正答案可能是一个扭曲的多变量EDA,以删除那些过于相关的变量。
对于一般的解决方案,在主模型之前添加变量选择门的工作似乎还在进行中(参见这里的例子:基于随机门的特征选择),但我还没有机会测试类似的东西。
https://datascience.stackexchange.com/questions/85130
复制相似问题