
unsetunset理论知识unsetunset
结构方程模型和中学时学过的方程组的概念非常类似!其实就是一个解方程的过程。
有时我们的数据可能有非常多的变量,比如我们有x1~x10,y1~y10,z1~z10,一共30个变量,不同的x之间可能都有关系,不同的y之间可能都有关系,不同的z之间可能都有关系,x,y,z之间可能也有关系,这时候你只写一个方程(或者叫模型、公式都可以)是不可能说清楚这么多关系的,比如你只写y1~x1+x2+x3+x5,那么剩下的那么多变量的关系你怎么解释?
这时候你就可以用结构方程模型了,因为结构方程模型可以包括多个模型,每一个变量之间的关系你都可以写一个方程出来,你把这些方程全都放在一起解决(是不是和方程组的概念很像?),就是结构方程模型了,它可以帮你算清楚这么多复杂的关系。
以下是正式的概念:
结构方程模型(Structural Equation Modeling,SEM)是一种多元统计分析方法,属于潜变量分析的一种。结构方程模型是一种基于变量之间的协方差的矩阵来分析多变量之间结构关系的多元统计方法,也被称为协方差结构模型。SEM的主要作用是研究可观测变量和不能直接测量的变量之间的结构关系,同时还能考虑到测量误差。
潜变量分析是用于处理不能直接观测到的变量的统计方法,常见的潜变量分析方法有探索性因子分析(EFA)、验证性因子分析(CFA)、结构方程模型(SEM)、潜在类别分析(LCA)、路径分析、增长曲线分析等。
在结构方程模型中,变量分为观测变量(observed variable)和潜变量(latent variable)。
无论是潜变量还是显变量,均可分为内生变量(endogenous variable)与外生变量(exogenous variable)。
Y表示)与内生潜变量(一般用η表示);X表示)与外生潜变量(一般用ξ表示)。SEM中的模型主要包括两种(SEM类似于多个方程组成的方程组,按照使用目的,这些方程大致可以分为两类):
所以,SEM其实就是多个模型的结合体,因为你只用一个模型是无法说清楚这么多变量之间的关系的,所以要建立多个方程(模型)。
当SEM只有测量模型,没有结构模型时,被称为验证性因子分析(confirmatory factor analysis,CFA)。当SEM只有结构模型,没有测量模型时,被称为路径分析(path analysis)。
路径图是用于描述变量之间关系的示意图,是SEM和验证性因子分析中必须了解的图形。其实就是用图形化的方式展示潜变量和显变量、潜变量和潜变量之间的关系,以及关系的大小(载荷)和方向等。由于SEM和CFA中通常涉及多个变量之间的复杂关系,只看数字或者文字描述很难直接理清他们的关系,但是图形可以直接反映,毕竟一图胜千言!
其他常用的做SEM的软件,比如AMOS,是以图形界面为核心的,所以在使用这种软件进行SEM第一步就是要建立路径图,使用路径图假设各个变量之间的关系。但是R语言是以代码为核心的,直接使用代码表示多个变量之间的关系即可(即直接建立多个模型(在R中就是建立多个公式)),路径图更多是作为结果呈现的内容,而不是必须第一步就要做的。
在之前的探索性因子分析中出现过一个简单的路径图:

这个图就是一个简单的路径图,展示了4个潜变量和各自的显变量之间的关系,并且标注了因子载荷以及正负,看起来很直观。
在CFA和SEM中,变量之间的关系比这个要复杂的多,为了规范,路径图中的圆圈、方框、箭头等都有明确的含义,以下是简单说明:

SEM与验证性因子分析(CFA)关系密切。根据分析目的,因子分析可分为探索性因子分析(exploratory factor analysis,EFA)和验证性因子分析(confirmatory factor analysis,CFA)。
与探索性因子分析要求因子之间独立不同的是,验证性因子分析允许潜在因子之间相关。
验证性因子分析在社会、心理、教育、管理及医学等研究领域,常用于评价某个测验或量表的构念效度(constructure validity,又称结构效度)。验证性因子分析与结构方程模型有着密切的联系,其实质是SEM的测量模型部分。验证性因子分析的数学模型与探索性因子分析的数学模型类似,也是联系潜在因子与可测变量的系列方程组。验证性因子分析从理论模型的设定、参数估计、模型的评价以及模型的修正与解释等一系列的过程皆与结构方程原理类似。
构念效度指的是测量工具能够准确测量理论上的构念或特质的程度。简单来说,就是看我们所使用的测量工具(如问卷、测试等)是不是真的在测量我们想要测量的那个抽象概念。比如,我们想测量一个人的“创造力”,那么所设计的测量工具是否真的能准确地把这个人的创造力水平反映出来,而不是测到了其他无关的东西,这就是构念效度要解决的问题。
简单看下这部分,有个印象即可。
在应用结构方程模型分析变量之间的复杂关系的时候,一般可以分为5个步骤进行:
根据研究目的和专业知识建立起观测变量与潜变量以及潜变量之间的关系,即为模型的设定。一般有3种方式设立欲拟合的结构方程模型。
模型识别的主要任务就是在初始模型建立之后,考虑模型中的每一个未知参数能否由观测数据得到唯一解。根据结构方程组的个数和未知参数的个数之间的关系,模型可以分为恰好识别模型、识别不足模型、过度识别模型。
a*b=16,求a和b的值,这个结果有无数个,因为有2个未知数却只有1个方程,好理解吧?也就是结构方程模型估计参数的过程。主要有以下几种方法(简单看下名字就好了...):
在获得了参数的估计值后需要对模型的拟合效果进行评价。一般而言需提供几个方面的信息:①参数估计的合理性及显著性检验;②测量模型的评价;③整体模型的评价。
1.参数估计与假设检验
在模型设定正确的前提下,参数的估计值应该具有合理的取值范围及正确的符号;反之,如果出现与此背离的情形,如方差为负值,相关系数的绝对值大于1,协方差或相关矩阵为非正定阵等,则表明模型设定有误或输入的矩阵缺少足够的信息。此外,还应该对每一个自由参数做是否为零的检验。在多元正态分布的前提下,ML和GLS估计能够获得正确的标准误,WLS估计在应用了正确的加权矩阵时所得到的标准误也是正确的,对于ULS和DWLS估计仅能得到渐近标准误,而IV和TSLS则不能提供标准误。并且,即使在观测变量有所偏离正态的情况下,ML和GLS也能得到稳健的标准误。单个参数的检验期望拒绝零假设,因为这表明将其设为自由参数是合理的:反之,当结论为不拒绝零假设时提示将其设为自由参数可能是不恰当的。此时,应结合实际理论将其固定为0。
2.模型评价
得到参数的估计值,就意味着得到一个特定的理论模型。接下来的问题是,如何知道这个特定的模型拟合实际数据的程度,涉及模型评价问题,至少需要进行两方面的评价:①检验模型中的参数是否具有统计学意义;②模型整体拟合程度的评价。
即便是理论模型整体拟合效果很好,也不能保证所有的待估参数均具有统计学意义,所以应该对每个参数是否具有统计学意义进行假设检验。当某个参数的检验结果不具有统计学意义时,意味着将该参数设为自由参数是不恰当的,应将其固定为0,并对模型重新拟合与评价。用于验证性因子分析的许多软件(如LISREL)会在输出结果中给出参数的标准误、统计量值等。此外,当潜在因子的协方差矩阵以及度量误差的协方差矩阵的对角元素出现负值时,表明模型的设定有不恰当之处,因为这些元素实质均为方差,方差应该是非负值。
对模型整体拟合效果的评价指标主要是拟合指数,拟合指数有很多,每个指数的计算及意义不尽相同。绝大多数的拟合指数是基于拟合函数计算出来的,卡方值是反映模型与数据拟合程度最直接的指标,卡方值越大,模型与数据拟合效果越不好。因为卡方值容易受到样本含量N影响,即在N较大时,卡方值也很大:N较小时,卡方值则很小,也就是说,卡方值往往不能很好地反映模型与数据的实际拟合程度。为了弥补卡方值的缺陷,许多学者先后提出了儿十个拟合指数。这些拟合指数大致可以分为:绝对拟合指数(absolute fit index)、相对拟合指数(comparative fit index)、信息标准指数(information criteria fit index)、节俭拟合指数(parsimony fit index)。
一个比较理想的拟合指数应该具有这样的特点:①不受样本含量的影响;②惩罚复杂模型(自由参数较多的模型);③对误设模型敏感。
验证性因子分析与结构方程模型的拟合指标基本相同,下表列出了部分常用的拟合指标。

上表中没有的几个指标补充:
对初始理论模型可进行调整,以得到拟合效果较佳的模型,可通过修正指数(modification index,MI),适当地改变模型中某些变量之间的关系,或设定某些误差项,或限制某些结构参数。MacCallum给出一些建议:
医学和生信笔记,专注R语言在医学中的使用!

三连一下,感谢支持