
我有一套临床数据。其目标是开发一种基于二进制数据的预测种族的模型,不管是否存在基因。
我很难找到一个没有连续数据就能工作的分类模型。一种可能有效的模式是k模式。还有什么其他的型号我应该考虑吗?
发布于 2019-03-02 02:53:16
Logistic回归模型当然可以用于二分特征。它还为每个特征提供了系数估计,以便测试和解释特征与目标标签之间的关系。由logistic回归模型作出的预测是概率,而不是二元决策,如果你有II型错误率、错误漏报率等指标,这在临床数据中往往是有用的。
基于距离的方法也可以使用,如k-最近邻算法。对于所有二进制特性,使用为二分数据设计的距离度量是有意义的,例如Russell Rao距离度量。这些模型将根据特征空间中k-最近观测的类标签进行预测。
发布于 2019-03-01 21:15:04
您可能需要考虑决策树或随机林,这些分类器可以处理不连续的数据,而且实际上是很好的。
它们是在科学知识-学习中实现的。
发布于 2019-03-02 04:45:05
我推荐使用LDA (潜在Dirichlet分配),它能有效地处理离散数据。
https://datascience.stackexchange.com/questions/46494
复制相似问题