文章/答案/技术大牛

发布

社区首页 >问答首页 >需要帮助为具有二进制数据的分类问题选择模型

问需要帮助为具有二进制数据的分类问题选择模型
EN

Data Science用户

提问于 2019-03-01 20:59:04

回答 3查看 98关注 0票数 0

我有一套临床数据。其目标是开发一种基于二进制数据的预测种族的模型，不管是否存在基因。

我很难找到一个没有连续数据就能工作的分类模型。一种可能有效的模式是k模式。还有什么其他的型号我应该考虑吗？

classification

回答 3

Data Science用户

发布于 2019-03-02 02:53:16

Logistic回归模型当然可以用于二分特征。它还为每个特征提供了系数估计，以便测试和解释特征与目标标签之间的关系。由logistic回归模型作出的预测是概率，而不是二元决策，如果你有II型错误率、错误漏报率等指标，这在临床数据中往往是有用的。

基于距离的方法也可以使用，如k-最近邻算法。对于所有二进制特性，使用为二分数据设计的距离度量是有意义的，例如Russell Rao距离度量。这些模型将根据特征空间中k-最近观测的类标签进行预测。

票数 1

Data Science用户

发布于 2019-03-01 21:15:04

您可能需要考虑决策树或随机林，这些分类器可以处理不连续的数据，而且实际上是很好的。

它们是在科学知识-学习中实现的。

票数 0

Data Science用户

发布于 2019-03-02 04:45:05

我推荐使用LDA (潜在Dirichlet分配)，它能有效地处理离散数据。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/46494

复制

相似问题

问需要帮助为具有二进制数据的分类问题选择模型
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问需要帮助为具有二进制数据的分类问题选择模型EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问需要帮助为具有二进制数据的分类问题选择模型
EN