观察性研究是研究者不主动干预研究对象,仅通过观察和记录自然状态下的暴露与结局关系的研究类型(如队列研究、病例对照研究、横断面研究等)。其统计学分析需遵循“数据特征核心关联分析偏倚控制结果呈现” 的逻辑链条,以下是详细的 “套路” 拆解:
研究设计与数据准备阶段
1. 明确研究类型与分析目标
(1)队列研究:分析暴露因素与结局事件(如疾病发生)的因果关联(RR、HR 等)。
(2)病例对照研究:探索结局事件(如患病)与既往暴露的关系(OR 值)。
(3)横断面研究:描述变量分布及关联(如患病率与因素的关联)。
(4)目标:明确核心问题(如“吸烟是否增加肺癌风险?”),确定暴露变量(X)、结局变量(Y)及混杂变量(C)。
2. 数据清洗与基本特征描述
(1)数据清洗:
缺失值处理:通过均值 / 中位数填充(连续变量)、众数填充(分类变量),或使用多重插补(适用于大样本)。
异常值识别:绘制箱线图、Z 值检验(|Z|>3 为异常),结合专业判断是否保留。
(2)基本特征描述:
分类变量:用频数(百分比)表示,组间比较用χ² 检验(或 Fisher 精确检验,当期望频数 < 5 时)。
连续变量:先做正态性检验(如 Shapiro-Wilk 检验),正态分布用均数 ± 标准差,组间比较用 t 检验;非正态分布用中位数(四分位数),组间比较用 Wilcoxon 秩和检验。
表格呈现:基线资料表(按暴露状态或结局分组,展示各组变量分布及组间差异的 P 值)。
核心关联分析(暴露与结局的关系)
1. 队列研究:分析发病 / 死亡风险
(1)效应指标:相对危险度(RR)、归因危险度(AR)、发病密度(ID)等。
(2)分析方法:
累计发病率数据:用四格表计算 RR,χ² 检验判断关联是否存在,Mantel-Haenszel 法控制分层混杂。
人时数据(含删失):用 Cox 比例风险回归模型,以 “时间 + 结局” 为因变量,暴露为自变量,计算风险比(HR)及 95% 置信区间(CI),模型需满足比例风险假设(通过 Schoenfeld 残差检验)。
2. 病例对照研究:分析暴露与疾病的关联
(1)效应指标:比值比(OR),当疾病罕见时 OR≈RR。
(2)分析方法:
未匹配数据:四格表计算 OR,χ² 检验关联,分层分析(Mantel-Haenszel 法)控制混杂。
匹配数据(如 1:1 匹配):用 McNemar 配对 χ² 检验,计算配对 OR。
多因素分析:条件 logistic 回归(匹配设计)或非条件 logistic 回归(未匹配),控制混杂后计算调整 OR。
3. 横断面研究:分析变量间关联
(1)效应指标:患病率比(PR)、OR(当结局为二分类时)。
(2)分析方法:
二分类结局:logistic 回归(计算 OR)。
连续结局:线性回归(分析暴露与均数的关系)。
注意:横断面研究无法确定因果时序,结果需谨慎解读为“关联” 而非 “因果”。
混杂与交互作用分析
1. 混杂因素的识别与控制
(1)识别:混杂因素需满足 3 个条件:与暴露相关;与结局相关;不是暴露与结局的中间变量(如 “吸烟焦油沉积肺癌” 中,焦油沉积是中间变量,不算混杂)。
(2)控制方法:
分层分析:按混杂因素分层,计算各层效应值,若分层后效应值与总效应值差异明显,提示存在混杂。
多因素回归:将混杂变量纳入回归模型(如 Cox、logistic 回归),直接输出调整后的效应值(HR/OR)。
倾向性评分(PS):当混杂变量多且样本量有限时,用 PS 匹配、分层或加权,平衡组间协变量分布后再分析暴露与结局的关系。
2. 交互作用分析
(1)定义:两个或多个因素联合作用时,效应不等于各因素单独作用之和(相加交互)或乘积(相乘交互)。
(2)分析方法:
在回归模型中加入交互项(如 X1×X2),若交互项 P<0.05,提示存在交互作用。
分层分析:计算不同层的效应值,比较差异(如“吸烟对男性和女性肺癌的 OR 是否不同”)。
敏感性分析与偏倚控制
1. 敏感性分析
(1)目的:检验结果的稳定性,排除极端值或缺失值处理方式对结论的影响。
(2)常见方法:
剔除异常值后重新分析。
用不同方法处理缺失值(如完整病例分析 vs 多重插补),比较结果差异。
改变模型纳入的变量(如增加 / 删除某个混杂因素),观察效应值是否明显变化。
2. 偏倚控制
(1)选择偏倚:通过严格的纳入 / 排除标准、提高应答率减少,分析时可计算应答者与非应答者的基线差异。
(2)信息偏倚:通过标准化调查方法、盲法(若可行)减少,分析时可进行错分偏倚的定量评估(如灵敏度、特异度调整)。
(3)混杂偏倚:通过前述分层、多因素回归等方法控制。
结果呈现与报告
1.核心结果:用效应值(RR/OR/HR)及 95% CI 表示关联强度,P 值判断统计学显著性(通常 P<0.05)。
2.表格与图形:
基线资料表、分层分析表、回归模型系数表。
生存曲线(队列研究)、森林图(展示多因素调整后的效应值)。
3.报告规范:遵循 STROBE 声明(观察性研究报告规范),明确研究设计、数据来源、分析方法及局限性。
总结
观察性研究的统计学分析核心是“先描述,再关联,后控制偏倚”,需根据研究类型选择合适的效应指标和模型(如 Cox、logistic 回归),并通过敏感性分析验证结果的可靠性。关键在于区分 “关联” 与 “因果”,避免过度解读,同时透明报告方法学细节,确保结果可重复。