我将就应急表及其结果提出一个问题。我对以符号作为可能特性的名称进行了这种分析,得到了以下值:
Label 0.0 1.0
with_symb 1584 241
without_symb 16 14得到一个p值,让met得出变量是相关的(因为它小于0.05)。我的问题是,这个结果是否可能是一个好的结果,基于x-平方检验,所以,如果我可以包括在模型中。我选择个别的特征,以进入模型的基础上的气平方。也许还有另一种方法可以为模型选择最合适和最重要的特性。任何有关这方面的建议都会很好。
发布于 2021-02-08 16:48:00
如果您选择基于chi-2测试的特性,我将提出几个可能出现的问题。
我试着从所有的特性开始,删除那些线性相关的特性。但这只是个建议。
此外,可以使用相互信息来估计任何给定的特征对标签的描述程度。
https://datascience.stackexchange.com/questions/89112
复制相似问题