我正在学习视觉分析,我有一个关于这个话题的理论问题。
我的教授在幻灯片中介绍了这个模式。

用于连接数据以实现可视化。有些话题很容易理解,并考虑到数据、绘图等工具的快速表达,而另一些话题则涉及到“数据”,特别是利用PCA等算法对数据进行约简。
我不太清楚为什么对数据使用PCA来减少一些我们想要快速呈现的数据。广告示例,如果我有带有所有电影(S只是一个例子)的数据集和一些属性广告示例。
名称,名称,年份,审查,userReview ecc.
这些数据之间的相关性在哪里?为什么我需要应用PCA来减少大型数据库,并丢失一些我可以在一些对我来说很重要的情节或模式中可视化的组件--例如,可能很有趣--请参阅所有具有高平均评论度的最佳电影,使用PCA我们只在不同的电影中对用户进行聚类(我在Iris数据库中看到了示例:https://medium.com/@kyasar.mail/pca-principal-component-analysis-729068e28ec8 )
有人能澄清我吗?
发布于 2019-02-23 20:19:13
你必须看到事物的本质。首先,你必须弄清楚PCA的作用。它不是集群,但它可以用来实现数据中可能存在集群。PCA并不总是答案。这取决于数据。还有其他降维技术,如自动编码器、非负矩阵因式分解等.
以电影为例,使用PCA是没有意义的。虹膜数据库包含另一种类型的数据,在那里它是有意义的。对于电影示例,您可能需要查看奇异值分解和协作筛选。
进行PCA的原因之一可能是聚类。如果你有许多维度,而内在维度是低的,你就会有维度的诅咒。通过主成分分析( PCA )降低维数,并对嵌入进行聚类,解决了维数的诅咒。
https://datascience.stackexchange.com/questions/46103
复制相似问题