首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在群集中向dataset添加条件

在群集中向dataset添加条件
EN

Stack Overflow用户
提问于 2017-08-29 06:11:12
回答 1查看 93关注 0票数 0

我对ML和Datascience非常陌生,所以我的问题可能有点傻。我有一个数据集,每一行都是向量a1、a2、a3、a3、.这些向量不仅在测量值上不同,而且在n和和A= a1 + a2 + a3 +...+ an上也是不同的。

除了15-20维外,大多数矢量都有5-6维.平均而言,它们的成分的价值通常在40-50之间。

我尝试过Kmeans、DBSCAN和GMM对它们进行集群:

  • gives总体上给出了最好的结果,但是对于2-3维向量和A值较低的向量,往往分类错误。
  • DBSCAN只能将低维和低A的向量从数据集中分离出来,其余的作为噪声处理。
  • GMM用5-10维,低A,很好的分离向量,但在其余的表现较差.

现在我想把n和A的信息包含到这个过程中。例如:-Vector 1 0,1,2,1,0和向量2,2,4,5,3,2,1,0,它们在n和A上都是不同的,它们不能在同一个集群中。每个集群只包含具有相似(关闭值)A和n的向量,然后再考虑它们的分量。

我在Python上使用sklearn,我很高兴听到关于这个问题的建议和建议。

EN

回答 1

Stack Overflow用户

发布于 2017-09-13 07:05:29

你的主要问题是如何度量相似性。

我很惊讶你能运行这些算法,因为通常他们会期望所有的向量都有相同的长度来计算距离。也许你会自动地用0填充它们--这就是为什么长向量最终远离所有其他向量的原因。

不要将算法用作黑匣子

你需要了解他们在做什么,否则结果可能是无用的。在你的例子中,他们使用的距离很差,所以结果当然不会很好。

因此,首先,您需要找到一种更好的方法来计算两个不同长度点的距离。0,1,2,1,0和30,40,50,60,50,40,30应该有多相似。对我来说,这是一个非常相似的模式(斜坡向上,斜坡向下)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45931835

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档