首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >按目标聚合分类特征

按目标聚合分类特征
EN

Data Science用户
提问于 2019-11-24 09:57:55
回答 3查看 173关注 0票数 2

具有三重组{X1、X2、Y}的列表,如:

{宾夕法尼亚,发烧,疟疾}

{宾夕法尼亚州,头痛,疟疾}

{亚利桑那州,酮味,流感}

{纽约,发烧,癌症}

{俄亥俄州,手部疼痛,创伤}

我有上千个有状态、症状和诊断的样本。我需要将状态集合起来,利用症状和诊断将维度缩小为更小的状态集。有什么想法吗?

我开始使用Kmode算法将数据聚成几个集群,但我不确定这样做是否有意义

EN

回答 3

Data Science用户

回答已采纳

发布于 2019-11-24 17:45:29

可以使用贾卡德指数作为相似性度量对离散数据进行聚类。有更多症状和诊断的州将有更高的Jaccard指数。可以对Jaccard指标值进行阈值处理以形成簇。

票数 1
EN

Data Science用户

发布于 2019-11-24 15:12:41

有趣的问题..。

如果我理解正确的话,你希望得到的状态簇具有相似的模式/比例的symptom+diagnosis,对吗?

如果是,我建议您重新组织数据,以便一个实例表示一个状态,其特征是每对的频率(症状、诊断)。基于这种表示形式,可以对具有相似流行率的状态进行聚类。

这种观点的缺点是,它认为对(症状,诊断)是不同的,即使两者中只有一个是不同的。当然,同样的过程也可以通过仅仅考虑症状或诊断来完成。可能有更好的方法,但这个简单的方法可能已经提供了一些见解。

票数 1
EN

Data Science用户

发布于 2019-11-25 06:23:30

大多数常用的机器学习算法,如决策树和Logistic回归算法,将分类变量转化为一种热编码。例如,如果您有20个状态,那么您就创建了20个变量,每次只有一个条目非零。在这种情况下,您可以通过训练嵌入矩阵E来减少输入空间的维数,就像学习单词嵌入一样,例如word2vec。您可以使用一个隐藏的维度为15,以减少您的输入空间。

为了找到嵌入E,您创建了一个神经网络,它预测在嵌入状态和症状的情况下疾病的嵌入。利用上述目标通过反向传播对该模型进行训练,使得嵌入矩阵捕获结构能够在给定的数据状态下存在。训练结束后,E的i^{th}行将为您的i^{th}状态提供新的表示形式。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/63678

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档