我有一个数据集的病人谁已经住院(住院)和没有住院(但访问作为门诊病人)。班级比例是66:34。
我已经收集了所有这些病人的特征清单。
现在我的目标是找出导致住院的危险因素?也就是说,哪些危险因素会影响病人入院?两类之间的危险因素有何不同?例如,心率过高或某些敏感的临床参数(仅举个例子)的病人可以入院,而临床参数正常的人可能不能入院,而只能去咨询。
你能确认我下面的步骤是否正确吗?
1)我有两个类别(承认和不承认),2)大约25个输入变量,3)运行一个logistic回归(Statsmodel,logit或Scikit-learn?)我们是否总是要预测结果类别,才能知道导致入院/住院的危险因素? 5)然后根据p值确定显著的危险因素。
虽然我的目标是找出导致入院的危险因素,但我是否仍须预测结果类别才能知道危险因素?
你能指点我吗?
发布于 2020-03-11 11:20:24
1)我有两个类别(承认和不承认),2)大约25个输入变量,3)运行一个logistic回归(Statsmodel,logit或Scikit-learn?)我们是否总是要预测结果类别,才能知道导致入院/住院的危险因素? 5)然后根据p值确定显著的危险因素。
没有必要,您可以只执行群集。而不是删除特性,直到类不再独立。此时,剩下的特征是最重要的风险因素。
https://datascience.stackexchange.com/questions/67409
复制相似问题