我是StackExchange的新手,所以如果这不是在StackExhange上提问的正确方式,我很抱歉。
在本文中,我希望为以后的研究提出一种方法,即利用主成分分析对特征进行聚类(特征聚类),然后应用于每个聚类主成分分析。我从这篇论文中得到了这样的想法:本论文。但是,我很难找到关于PCA用于聚类变量(而不是减少变量)的文献。我可以想象,使用PCA对变量进行聚类并不理想,但我仍然想提出该方法。你们中有谁知道任何文献、文章、书籍等。
发布于 2022-05-11 04:34:10
我不确定PCA是不是你想要的。我认为这可能有助于想象你所追求的目标。我认为,对于5个有2条记录(即2行5列)的特性,图像如下:

在这里,因为只有两个记录,特征是二维向量。你会在一个星系团中捕获A,B,C,在另一个星系团中捕获D,E吗?
如果是这样的话,我认为你应该简单地进行协方差矩阵的特征值分解。这会给你最大方差的特征向量。对于上面的例子,我将有5x5协方差矩阵,其中两个特征向量具有较大的特征值,另外三个特征向量的特征值非常小。
大特征值的特征向量是你的聚类目标,沿着这些特征向量投影你的特征向量。例如,如果V_1和V_2是两个特征向量,那么计算点乘积\left|A.V_1\right|和\left|A.V_2\right|的大小。然后将特性A分配给集群1(如果是\left|A.V_1\right|>\left|A.V_2\right|,反之亦然)。根据您的数据,将特征与具有非常相似特征值的特征向量对齐(作为正则化的一种形式)可能是一个好主意。
PS: PCA做类似的事情,但面向不同的目的(即设计矩阵的SVD提供的一些信息,类似于协方差矩阵的对角化得到的信息)
发布于 2022-05-11 12:23:28
看来您想采用无监督的方法来进行特征选择。您可以使用PCA,但它可能没有那么有效。
我建议通过这些链接。
在链接4中有一种叫做主体特征分析的方法,你可以看一看。如果使用R,则有用于稀疏聚类的sparcl包。
https://datascience.stackexchange.com/questions/110802
复制相似问题