文章/答案/技术大牛

发布

社区首页 >问答首页 >按目标聚合分类特征

问按目标聚合分类特征
EN

Data Science用户

提问于 2019-11-24 09:57:55

回答 3查看 173关注 0票数 2

具有三重组{X1、X2、Y}的列表，如：

{宾夕法尼亚，发烧，疟疾}

{宾夕法尼亚州，头痛，疟疾}

{亚利桑那州，酮味，流感}

{纽约，发烧，癌症}

{俄亥俄州，手部疼痛，创伤}

我有上千个有状态、症状和诊断的样本。我需要将状态集合起来，利用症状和诊断将维度缩小为更小的状态集。有什么想法吗？

我开始使用Kmode算法将数据聚成几个集群，但我不确定这样做是否有意义

clustering

feature-engineering

回答 3

Data Science用户

回答已采纳

发布于 2019-11-24 17:45:29

可以使用贾卡德指数作为相似性度量对离散数据进行聚类。有更多症状和诊断的州将有更高的Jaccard指数。可以对Jaccard指标值进行阈值处理以形成簇。

票数 1

Data Science用户

发布于 2019-11-24 15:12:41

有趣的问题..。

如果我理解正确的话，你希望得到的状态簇具有相似的模式/比例的symptom+diagnosis，对吗？

如果是，我建议您重新组织数据，以便一个实例表示一个状态，其特征是每对的频率(症状、诊断)。基于这种表示形式，可以对具有相似流行率的状态进行聚类。

这种观点的缺点是，它认为对(症状，诊断)是不同的，即使两者中只有一个是不同的。当然，同样的过程也可以通过仅仅考虑症状或诊断来完成。可能有更好的方法，但这个简单的方法可能已经提供了一些见解。

票数 1

Data Science用户

发布于 2019-11-25 06:23:30

大多数常用的机器学习算法，如决策树和Logistic回归算法，将分类变量转化为一种热编码。例如，如果您有20个状态，那么您就创建了20个变量，每次只有一个条目非零。在这种情况下，您可以通过训练嵌入矩阵E来减少输入空间的维数，就像学习单词嵌入一样，例如word2vec。您可以使用一个隐藏的维度为15，以减少您的输入空间。

为了找到嵌入E，您创建了一个神经网络，它预测在嵌入状态和症状的情况下疾病的嵌入。利用上述目标通过反向传播对该模型进行训练，使得嵌入矩阵捕获结构能够在给定的数据状态下存在。训练结束后，E的i^{th}行将为您的i^{th}状态提供新的表示形式。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/63678

复制

相似问题

问按目标聚合分类特征
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按目标聚合分类特征EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按目标聚合分类特征
EN