我有以术语为维度的文档术语数据。我必须对术语执行特征选择,并且我打算使用相互信息作为执行特征选择的度量。我的疑问是,在计算所有可能的对之间的互信息之后,应该做什么?我是否应该设置一个阈值,并选择在该阈值内的所有术语对?
发布于 2013-03-06 21:17:08
如果你想使用互信息,你可以考虑使用mRMR算法。你可以用这种算法来选择特征。我的意思是:
You have n features at your data set (it means n dimensions)如果你想使用最有意义的
k of n (k < n)您可以使用功能选择(即使用交互信息背景的mRMR )
决定k取决于某些情况。
其中之一是你不想在你的模型中使用不必要的功能,你想要避免计算成本,并从你的数据集中移除一些功能creation.
你应该在删除一些功能后测试你的算法。你检查精确度是否会上升,而根据你的目标,精确度甚至会下降,这是否会导致避免计算成本(所以你可能也想去掉一些特性)
另一方面,我建议您考虑特征提取方法,即PCA和LDA (特别是针对您的情况)。
https://stackoverflow.com/questions/15243229
复制相似问题