首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >需要帮助为具有二进制数据的分类问题选择模型

需要帮助为具有二进制数据的分类问题选择模型
EN

Data Science用户
提问于 2019-03-01 20:59:04
回答 3查看 98关注 0票数 0

我有一套临床数据。其目标是开发一种基于二进制数据的预测种族的模型,不管是否存在基因。

我很难找到一个没有连续数据就能工作的分类模型。一种可能有效的模式是k模式。还有什么其他的型号我应该考虑吗?

EN

回答 3

Data Science用户

发布于 2019-03-02 02:53:16

Logistic回归模型当然可以用于二分特征。它还为每个特征提供了系数估计,以便测试和解释特征与目标标签之间的关系。由logistic回归模型作出的预测是概率,而不是二元决策,如果你有II型错误率、错误漏报率等指标,这在临床数据中往往是有用的。

基于距离的方法也可以使用,如k-最近邻算法。对于所有二进制特性,使用为二分数据设计的距离度量是有意义的,例如Russell Rao距离度量。这些模型将根据特征空间中k-最近观测的类标签进行预测。

票数 1
EN

Data Science用户

发布于 2019-03-01 21:15:04

您可能需要考虑决策树或随机林,这些分类器可以处理不连续的数据,而且实际上是很好的。

它们是在科学知识-学习中实现的。

票数 0
EN

Data Science用户

发布于 2019-03-02 04:45:05

我推荐使用LDA (潜在Dirichlet分配),它能有效地处理离散数据。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/46494

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档