如何确定用于删除低方差特性的阈值?
特别是,我有100000个特性,差异看起来如下:

我可以拿平均值,用它来把这个平分到一半吗?
或者其他的分组方法?
发布于 2018-05-09 23:53:41
您可以这样做几种方法,我可以按努力的升序列出:
然而,对于这些方法总体上是否是最佳办法,有一些争论。看一下关于这个线程在交叉验证的一些讨论。引用那篇文章中的观点,如果是从写上述卡莱特包裹的人的书中引用的话--马克斯·库恩。
反对这种方法的论据说,您可能正在移动变量,尽管它们的方差很低,但实际上在解释目标(因变量)时可能非常强大。
我建议的最后一种方法是进入协方差领域,即查看变量对之间的这个共线性。我过去做过这件事,对我来说效果很好。基本算法如下所示:
这里是科学学习课吗,可以为您做基本的方差阈值-也有简短的教程。它们还提供了一些方法来进行递归特性选择,本质上类似于我前面概述的最后一种方法。
发布于 2023-01-30 15:00:38
使用一个简单的熊猫函数,Dataframe.var() in for循环。
代码段
步骤-i(创建一个仅包含数值列的新数据)
df_num = df.select_dtypes(include ='number')步骤- II (使用循环函数的过滤器列)
for col in df_num:
if df_num[col].var() < 10:
print(col,"----->", df_num[col].var())https://datascience.stackexchange.com/questions/31453
复制相似问题