首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >一组多线性变量的潜在变量

一组多线性变量的潜在变量
EN

Stack Overflow用户
提问于 2013-11-29 12:41:11
回答 2查看 538关注 0票数 0

我有一个由连续的、非正态分布的观测组成的环境数据集.我的目标是从被测的5个变量中构造一个潜在变量。这个结构背后的理论似乎是合理的,但我坚持要把这个想法正式化。

这5个变量是强相关的(二元相关关系.75-.95),据我所知,这是结构方程建模的问题吗?我试过在R中使用“lavaan”软件包的扫描电镜,但我什么也没有得到。所以我应该坚持SEM并尝试迭代模型,还是应该使用其他方法?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-11-29 18:23:33

其实与其说是R问题不如说是统计问题,但是.

主成分分析为例,它将一组相关变量转换为一组新的不相关(正交)变量(主成分,PC)。通常情况下,少量的PC解释了原始数据集中的几乎所有的可变性。在R中使用内置iris数据集:

代码语言:javascript
复制
data <- iris[,1:4]                      # iris dataset, excluding species column
pca  <- prcomp(data,retx=T, scale.=T)   # principal components analysis
PC   <- pca$x                           # the principal components
summary(pca)

产生这种情况:

代码语言:javascript
复制
Importance of components:
                          PC1    PC2     PC3     PC4
Standard deviation     1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion  0.7296 0.9581 0.99482 1.00000

因此,第一个主成分PC1解释了数据集中73%的变化,前两个(PC1和PC2)一起解释了96%的变化。

编辑:回复@erska的评论/问题如下:

代码语言:javascript
复制
cor(data,PC) 

产生这种情况:

代码语言:javascript
复制
                    PC1         PC2         PC3         PC4
Sepal.Length  0.8901688 -0.36082989  0.27565767  0.03760602
Sepal.Width  -0.4601427 -0.88271627 -0.09361987 -0.01777631
Petal.Length  0.9915552 -0.02341519 -0.05444699 -0.11534978
Petal.Width   0.9649790 -0.06399985 -0.24298265  0.07535950

表明PC1Sepal.LengthPetal.LengthPetal.Width高度相关,与Sepal.Width呈中度负相关。PC4与任何事物都没有很高的相关性,这并不奇怪,因为它主要是由随机变化组成的。这是PCA的典型模式。

我想可能对PCA的工作方式有误解。如果您在原始数据集中有n变量,PCA根据定义将识别n主成分,按解释的可变性的分数排序(所以,PC1解释了最大的可变性,等等)。您可以告诉算法报告多少(例如,只报告PC1,或PC1和PC2等),但计算总是生成n PC。

票数 0
EN

Stack Overflow用户

发布于 2013-11-29 13:31:39

因为你只假设了一个潜在的变量,我想说的是,因子分析在你的情况下更合适。您可以使用R函数factanal

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20286103

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档