我想探索以下变量及其双向交互作用作为可能的预测因子:兄弟姐妹数量(nsibs)、断奶年龄(wmonth)、母亲年龄(mthage)、种族、贫困、出生体重(bweight)和母亲吸烟(smoke)。
我创建了我的Cox回归公式,但我不知道如何与预测因子形成双向交互:
coxph(Surv(wmonth,chldage1)~as.factor(nsibs)+mthage+race+poverty+bweight+smoke,data=pneumon)
final<-step(coxph(Surv(wmonth,chldage1)~(as.factor(nsibs)+mthage+race+poverty+bweight+smoke)^2,data=pneumon),direction='backward')发布于 2017-05-20 00:42:34
coxph的公式界面与lm或glm的公式界面相同。如果需要形成所有的双向交互,可以使用^-operator,第一个参数是协变量的"sum“,第二个参数是2
coxph(Surv(wmonth,chldage1) ~
( as.factor(nsibs)+mthage+race+poverty+bweight+smoke)^2,
data=pneumon)我不认为存在Cox回归step逐步下降函数。Thereau在过去曾公开反对使该过程易于自动化。正如Roland在他的评论中指出的那样,所有R Core包作者中的主流观点是,逐步过程在统计上是可疑的。(当人们从SPSS或SAS转到R的时候,这通常会造成一些文化冲击,因为那里的文化更容易接受循序渐进的程序,社会科学统计课程似乎也支持这种方法。)
首先,您需要解决您的数据是否有足够的事件来支持这样一个复杂模型的问题。Cox模型的统计能力是由事件的数量驱动的,而不是处于风险中的受试者的数量。一个公认的不完美的经验法则是,每个协变量需要10-15个事件,通过将交互扩大10倍,您可以将所需的事件数量扩大类似的因素。
哈雷尔在他的RMS书和rms-package文档中讨论了这些问题,并主张在任何选择方法的过程中将收缩应用于协变量估计。这将是一条更符合统计原则的路线。
如果您确实有这么大的数据集,并且在您的研究领域中没有关于哪些协变量交互更重要的理论,另一种方法是检查完整的交互模型,然后继续进行模型的每次修改都会增加整个过程的自由度数量的观点。我过去曾遇到过这样的情况(数以千计的事件,数百万人面临风险),我的方法是保持交互符合更严格的统计理论。我将这种方法限制在被认为是相关的变量组中。我首先检查了它们的双向相关性。在我的模型中,除了吸烟和性别以及5个连续的协变量外,没有分类变量,我保持了增量偏差(分布为卡方统计)度量为30或更多的双向交互。因此,我保留了那些“实现了意义”的交互,其中隐含的自由度比朴素的软件列表高得多。我还比较了保留的协变量交互作用和没有去除的交互作用的结果,以确保该过程没有显著改变预测效果的大小。我还使用了Harrell的rms-package的验证和校准程序。
https://stackoverflow.com/questions/44042747
复制相似问题