我正在使用KNN对手写数字进行分类。我现在还实现了PCA来降低维数。我从256提高到了200。但我只注意到大约0.10%的信息丢失。我删除了56维。损失不是应该更大吗?只有当我下降到5维时,我才会损失约20%。这是正常的吗?
发布于 2012-04-18 21:30:21
你是说在移除56个维度之后,你几乎没有丢失任何信息?当然,这就是主成分分析的意义所在!顾名思义,Principal Component Analysis可以帮助你确定哪些维度承载了信息。你可以去掉剩下的部分,这是它最大的部分。
我想要一些例子,在基因分析中,我读过一些论文,其中使用PCA将维度从40'000降到100,然后他们做了一些神奇的事情,并且有一个具有19个维度的优秀分类器。这隐含地告诉你,当他们删除39'900维时,实际上没有丢失任何信息!
发布于 2012-04-27 05:02:17
这是正常的,是的(就像Fezvez说的你所做的事情的要点)。你的案例实际上是一个很好的例子,你可以看到这是如何实现的。
看看你的数据(这在机器学习中总是很重要的,了解你的数据)。如果你有白色上的黑色手写数字的图像,那么很有可能一些角落的像素对于所有样本来说都是白色的(当我在手写数字上做机器学习时,我在一个角落里有这个)。所以实际上在那个像素中没有任何信息。如果你去掉它作为你的KNN或ANN或其他任何东西的输入,你会得到相同的结果。
https://stackoverflow.com/questions/10183017
复制相似问题