首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >利用外部数据验证生存模型

利用外部数据验证生存模型
EN

Stack Overflow用户
提问于 2016-06-27 16:27:03
回答 1查看 714关注 0票数 1

我有两个数据集(培训和验证),用于构建和验证Cox模型。

利用训练数据集,采用逐步选择法拟合cox模型。

模型中的重要变量是唯一包含在验证模型中的变量。,这是正确的方法吗?

在验证模型时,我意识到在验证模型中变量并不显着,cox模型的假设也不成立(我检查了验证数据的假设)。我是否应该忽略变量无关紧要的事实,继续用验证数据中的模型假设来修正问题?

第三,在培训和验证数据中,我对三组进行了可变的“治疗”。训练分标准组、新药组和合剂组,验证数据组为标准组、新药组和X组(训练数据与混合治疗组不同)。在这两个模型中都包含这个变量是正确的,还是应该消除不匹配的组:训练数据和验证数据中的混合,还是应该这样处理呢?我不知道这如何影响我的分析。

谢谢你的答复。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-07-15 13:47:11

回答你的第一个问题:是的,这是正确的方法。培训和验证集的整个概念是根据培训集对模型(此处:要添加哪些变量)作出所有决定。然后,验证集用于评估您在培训集中的结果有多健壮。这样你就可以检查过度拟合,异常值,数据错误等。

然而,我不推荐逐步回归方法。参见这篇文章的最上面的答案:https://stats.stackexchange.com/questions/115843/backward-selection-for-cox-model-using-r

第二个问题:不,你不应该忽视那些无关紧要的变量。这正是您拥有验证集的原因。也许你的训练集有一些非常有影响力的观察结果(离群点)?还是别的什么?不管怎样,你得做些额外的研究。

你指的是哪种假设?我假设你的意思是比例危险(PH)假设不成立,因为这个假设经常被违反。和你第一个问题的答案是一样的。首先检查训练集上的假设。如果它也不存在,在您的模型中进行调整。如果它确实是PH假设违反了一个变量,添加一个时间-相互作用或建立一个分层的cox模型。[例如:见:proportional.pdf]

我不完全确定我对第三个问题的答案,但这里是这样的:如果X不包括在您的培训模型中,那么将X包含在您的验证模型中是不正确的。变量处理是一个因素,因此在回归中,它本质上改变为每个级别的虚拟(0/1)变量。因此,包含X就等于在验证模型中引入一个全新的变量,这是违反直觉的。

希望这能有所帮助!

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38058894

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档