我有一个由连续的、非正态分布的观测组成的环境数据集.我的目标是从被测的5个变量中构造一个潜在变量。这个结构背后的理论似乎是合理的,但我坚持要把这个想法正式化。
这5个变量是强相关的(二元相关关系.75-.95),据我所知,这是结构方程建模的问题吗?我试过在R中使用“lavaan”软件包的扫描电镜,但我什么也没有得到。所以我应该坚持SEM并尝试迭代模型,还是应该使用其他方法?
发布于 2013-11-29 18:23:33
其实与其说是R问题不如说是统计问题,但是.
以主成分分析为例,它将一组相关变量转换为一组新的不相关(正交)变量(主成分,PC)。通常情况下,少量的PC解释了原始数据集中的几乎所有的可变性。在R中使用内置iris数据集:
data <- iris[,1:4] # iris dataset, excluding species column
pca <- prcomp(data,retx=T, scale.=T) # principal components analysis
PC <- pca$x # the principal components
summary(pca)产生这种情况:
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000因此,第一个主成分PC1解释了数据集中73%的变化,前两个(PC1和PC2)一起解释了96%的变化。
编辑:回复@erska的评论/问题如下:
cor(data,PC) 产生这种情况:
PC1 PC2 PC3 PC4
Sepal.Length 0.8901688 -0.36082989 0.27565767 0.03760602
Sepal.Width -0.4601427 -0.88271627 -0.09361987 -0.01777631
Petal.Length 0.9915552 -0.02341519 -0.05444699 -0.11534978
Petal.Width 0.9649790 -0.06399985 -0.24298265 0.07535950表明PC1与Sepal.Length、Petal.Length、Petal.Width高度相关,与Sepal.Width呈中度负相关。PC4与任何事物都没有很高的相关性,这并不奇怪,因为它主要是由随机变化组成的。这是PCA的典型模式。
我想可能对PCA的工作方式有误解。如果您在原始数据集中有n变量,PCA根据定义将识别n主成分,按解释的可变性的分数排序(所以,PC1解释了最大的可变性,等等)。您可以告诉算法报告多少(例如,只报告PC1,或PC1和PC2等),但计算总是生成n PC。
发布于 2013-11-29 13:31:39
因为你只假设了一个潜在的变量,我想说的是,因子分析在你的情况下更合适。您可以使用R函数factanal。
https://stackoverflow.com/questions/20286103
复制相似问题