新的数据科学,并试图成为一个自我启动和实施先进的数据分析在我的亚科外科。下面是我的数据集的描述。我知道我将不得不探索多种方法,但想得到你认为可能是最好的看法。我很可能会用R来完成这个分析。
我对这项研究的问题如下:
为此,我尝试过线性回归和逻辑回归,但效果并不好,因此我尝试学习更先进的模型。
更容易被临床医生理解的模型更有价值,这就是为什么我没有深入研究神经网络的原因。我感谢能提供的任何和所有的建议。此外,如果我将此数据集扩展到600人,您会使用另一种模式吗?我无法访问大型服务器,所以大部分都将在我的笔记本电脑上完成,但如果有必要,我可以使用在线资源(Azure等)。
感谢大家的帮助和投入。
发布于 2018-09-17 11:28:09
Question 1:我建议将决策树作为您应该研究的第一件事,因为它们易于实现,而且结果很容易解释。您将得到一个树结构,其中节点保存变量的间隔/值。在每个节点上,树试图最有效地将数据拆分为二进制分类$C_1$和$C_2$。因此,最终,您将能够在树的顶部提取变量中最重要的特性。在选择属性时,典型的“效率”度量是熵。
Question 2:我认为它也是用上述方法解决的。对于树的每个节点,您都知道左边和右边的$C_1$和$C_2$分类的数量。假设节点中的属性是“有糖尿病”。你的数据(因此树)告诉你,110名病人中有100名“失败”了,如果患者患有糖尿病。因此,你可以给出一个关于特定属性对你的业务成功有多大贡献的评估,并得出结论认为对给定的人操作没有多大意义。
尽管如此,始终要注意如何解释结果。您不应该试图解释分割小子组的属性,因为这很容易导致对现实世界行为的错误假设。
https://datascience.stackexchange.com/questions/38355
复制相似问题