我有两个数据集(培训和验证),用于构建和验证Cox模型。
利用训练数据集,采用逐步选择法拟合cox模型。
模型中的重要变量是唯一包含在验证模型中的变量。,这是正确的方法吗?
在验证模型时,我意识到在验证模型中变量并不显着,cox模型的假设也不成立(我检查了验证数据的假设)。我是否应该忽略变量无关紧要的事实,继续用验证数据中的模型假设来修正问题?
第三,在培训和验证数据中,我对三组进行了可变的“治疗”。训练分标准组、新药组和合剂组,验证数据组为标准组、新药组和X组(训练数据与混合治疗组不同)。在这两个模型中都包含这个变量是正确的,还是应该消除不匹配的组:训练数据和验证数据中的混合,还是应该这样处理呢?我不知道这如何影响我的分析。。
谢谢你的答复。
发布于 2016-07-15 13:47:11
回答你的第一个问题:是的,这是正确的方法。培训和验证集的整个概念是根据培训集对模型(此处:要添加哪些变量)作出所有决定。然后,验证集用于评估您在培训集中的结果有多健壮。这样你就可以检查过度拟合,异常值,数据错误等。
然而,我不推荐逐步回归方法。参见这篇文章的最上面的答案:https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r。
第二个问题:不,你不应该忽视那些无关紧要的变量。这正是您拥有验证集的原因。也许你的训练集有一些非常有影响力的观察结果(离群点)?还是别的什么?不管怎样,你得做些额外的研究。
你指的是哪种假设?我假设你的意思是比例危险(PH)假设不成立,因为这个假设经常被违反。和你第一个问题的答案是一样的。首先检查训练集上的假设。如果它也不存在,在您的模型中进行调整。如果它确实是PH假设违反了一个变量,添加一个时间-相互作用或建立一个分层的cox模型。[例如:见:proportional.pdf]
我不完全确定我对第三个问题的答案,但这里是这样的:如果X不包括在您的培训模型中,那么将X包含在您的验证模型中是不正确的。变量处理是一个因素,因此在回归中,它本质上改变为每个级别的虚拟(0/1)变量。因此,包含X就等于在验证模型中引入一个全新的变量,这是违反直觉的。
希望这能有所帮助!
https://stackoverflow.com/questions/38058894
复制相似问题