文章/答案/技术大牛

发布

观察性研究的统计学套路

文章来源：企鹅号 - 孙医生工作室

观察性研究是研究者不主动干预研究对象，仅通过观察和记录自然状态下的暴露与结局关系的研究类型（如队列研究、病例对照研究、横断面研究等）。其统计学分析需遵循“数据特征核心关联分析偏倚控制结果呈现” 的逻辑链条，以下是详细的 “套路” 拆解：

研究设计与数据准备阶段

1. 明确研究类型与分析目标

（1）队列研究：分析暴露因素与结局事件（如疾病发生）的因果关联（RR、HR 等）。

（2）病例对照研究：探索结局事件（如患病）与既往暴露的关系（OR 值）。

（3）横断面研究：描述变量分布及关联（如患病率与因素的关联）。

（4）目标：明确核心问题（如“吸烟是否增加肺癌风险？”），确定暴露变量（X）、结局变量（Y）及混杂变量（C）。

2. 数据清洗与基本特征描述

（1）数据清洗：

缺失值处理：通过均值 / 中位数填充（连续变量）、众数填充（分类变量），或使用多重插补（适用于大样本）。

异常值识别：绘制箱线图、Z 值检验（|Z|>3 为异常），结合专业判断是否保留。

（2）基本特征描述：

分类变量：用频数（百分比）表示，组间比较用χ² 检验（或 Fisher 精确检验，当期望频数 < 5 时）。

连续变量：先做正态性检验（如 Shapiro-Wilk 检验），正态分布用均数 ± 标准差，组间比较用 t 检验；非正态分布用中位数（四分位数），组间比较用 Wilcoxon 秩和检验。

表格呈现：基线资料表（按暴露状态或结局分组，展示各组变量分布及组间差异的 P 值）。

核心关联分析（暴露与结局的关系）

1. 队列研究：分析发病 / 死亡风险

（1）效应指标：相对危险度（RR）、归因危险度（AR）、发病密度（ID）等。

（2）分析方法：

累计发病率数据：用四格表计算 RR，χ² 检验判断关联是否存在，Mantel-Haenszel 法控制分层混杂。

人时数据（含删失）：用 Cox 比例风险回归模型，以 “时间 + 结局” 为因变量，暴露为自变量，计算风险比（HR）及 95% 置信区间（CI），模型需满足比例风险假设（通过 Schoenfeld 残差检验）。

2. 病例对照研究：分析暴露与疾病的关联

（1）效应指标：比值比（OR），当疾病罕见时 OR≈RR。

（2）分析方法：

未匹配数据：四格表计算 OR，χ² 检验关联，分层分析（Mantel-Haenszel 法）控制混杂。

匹配数据（如 1:1 匹配）：用 McNemar 配对 χ² 检验，计算配对 OR。

多因素分析：条件 logistic 回归（匹配设计）或非条件 logistic 回归（未匹配），控制混杂后计算调整 OR。

3. 横断面研究：分析变量间关联

（1）效应指标：患病率比（PR）、OR（当结局为二分类时）。

（2）分析方法：

二分类结局：logistic 回归（计算 OR）。

连续结局：线性回归（分析暴露与均数的关系）。

注意：横断面研究无法确定因果时序，结果需谨慎解读为“关联” 而非 “因果”。

混杂与交互作用分析

1. 混杂因素的识别与控制

（1）识别：混杂因素需满足 3 个条件：与暴露相关；与结局相关；不是暴露与结局的中间变量（如 “吸烟焦油沉积肺癌” 中，焦油沉积是中间变量，不算混杂）。

（2）控制方法：

分层分析：按混杂因素分层，计算各层效应值，若分层后效应值与总效应值差异明显，提示存在混杂。

多因素回归：将混杂变量纳入回归模型（如 Cox、logistic 回归），直接输出调整后的效应值（HR/OR）。

倾向性评分（PS）：当混杂变量多且样本量有限时，用 PS 匹配、分层或加权，平衡组间协变量分布后再分析暴露与结局的关系。

2. 交互作用分析

（1）定义：两个或多个因素联合作用时，效应不等于各因素单独作用之和（相加交互）或乘积（相乘交互）。

（2）分析方法：

在回归模型中加入交互项（如 X1×X2），若交互项 P<0.05，提示存在交互作用。

分层分析：计算不同层的效应值，比较差异（如“吸烟对男性和女性肺癌的 OR 是否不同”）。

敏感性分析与偏倚控制

1. 敏感性分析

（1）目的：检验结果的稳定性，排除极端值或缺失值处理方式对结论的影响。

（2）常见方法：

剔除异常值后重新分析。

用不同方法处理缺失值（如完整病例分析 vs 多重插补），比较结果差异。

改变模型纳入的变量（如增加 / 删除某个混杂因素），观察效应值是否明显变化。

2. 偏倚控制

（1）选择偏倚：通过严格的纳入 / 排除标准、提高应答率减少，分析时可计算应答者与非应答者的基线差异。

（2）信息偏倚：通过标准化调查方法、盲法（若可行）减少，分析时可进行错分偏倚的定量评估（如灵敏度、特异度调整）。

（3）混杂偏倚：通过前述分层、多因素回归等方法控制。

结果呈现与报告

1.核心结果：用效应值（RR/OR/HR）及 95% CI 表示关联强度，P 值判断统计学显著性（通常 P<0.05）。

2.表格与图形：

基线资料表、分层分析表、回归模型系数表。

生存曲线（队列研究）、森林图（展示多因素调整后的效应值）。

3.报告规范：遵循 STROBE 声明（观察性研究报告规范），明确研究设计、数据来源、分析方法及局限性。

总结

观察性研究的统计学分析核心是“先描述，再关联，后控制偏倚”，需根据研究类型选择合适的效应指标和模型（如 Cox、logistic 回归），并通过敏感性分析验证结果的可靠性。关键在于区分 “关联” 与 “因果”，避免过度解读，同时透明报告方法学细节，确保结果可重复。

发表于: 2025-12-142025-12-14 18:14:28
原文链接：https://page.om.qq.com/page/OHEDMX5NR9658fRjDeN8knpg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

观察性研究的统计学套路

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐