假设我们有来自学生班级的10维数据。数据涉及的参数,如姓名,年级,课程,编号。全班所有学生的讲座时间等。现在,我们想分析一下No的影响。几个小时的成绩讲座。如果我们仔细观察我们的参数,学生的名字与成绩无关,但是学生的课程“可能”会对成绩产生影响。
因此,可能存在相互依赖的参数,而另一些参数可以完全独立。我的问题是,我们如何决定哪个参数对我们的分类/回归问题有影响,哪些不影响?
PS:我不是在寻找确切的解决方案。如果有人能告诉我谷歌搜索的正确方向或关键词,那就足够了。谢谢。
发布于 2012-02-10 15:10:57
您要寻找的技术称为维数约简。斯坦福大学的机器学习课超越了一种方法(主成分分析)。
发布于 2012-02-12 01:30:48
这就是独立分量分析的问题。ICA :一种寻找数据集统计独立分量的方法。这是一个很难解决的问题,有各种各样的算法可以找到好的解。一个流行的算法是FastICA。
还有美白和去相关的相关概念。
https://stackoverflow.com/questions/9226368
复制相似问题