文章/答案/技术大牛

发布

社区首页 >问答首页 >在群集中向dataset添加条件

问在群集中向dataset添加条件
EN

Stack Overflow用户

提问于 2017-08-29 06:11:12

回答 1查看 93关注 0票数 0

我对ML和Datascience非常陌生，所以我的问题可能有点傻。我有一个数据集，每一行都是向量a1、a2、a3、a3、.这些向量不仅在测量值上不同，而且在n和和A= a1 + a2 + a3 +...+ an上也是不同的。

除了15-20维外，大多数矢量都有5-6维.平均而言，它们的成分的价值通常在40-50之间。

我尝试过Kmeans、DBSCAN和GMM对它们进行集群：

gives总体上给出了最好的结果，但是对于2-3维向量和A值较低的向量，往往分类错误。
DBSCAN只能将低维和低A的向量从数据集中分离出来，其余的作为噪声处理。
GMM用5-10维，低A，很好的分离向量，但在其余的表现较差.

现在我想把n和A的信息包含到这个过程中。例如：-Vector 1 0,1,2,1,0和向量2，2，4，5，3，2，1，0，它们在n和A上都是不同的，它们不能在同一个集群中。每个集群只包含具有相似(关闭值)A和n的向量，然后再考虑它们的分量。

我在Python上使用sklearn，我很高兴听到关于这个问题的建议和建议。

machine-learning

k-means

dbscan

python

vector

回答 1

Stack Overflow用户

发布于 2017-09-13 07:05:29

你的主要问题是如何度量相似性。

我很惊讶你能运行这些算法，因为通常他们会期望所有的向量都有相同的长度来计算距离。也许你会自动地用0填充它们--这就是为什么长向量最终远离所有其他向量的原因。

不要将算法用作黑匣子

你需要了解他们在做什么，否则结果可能是无用的。在你的例子中，他们使用的距离很差，所以结果当然不会很好。

因此，首先，您需要找到一种更好的方法来计算两个不同长度点的距离。0,1,2,1,0和30,40,50,60,50,40,30应该有多相似。对我来说，这是一个非常相似的模式(斜坡向上，斜坡向下)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45931835

复制

相似问题

问在群集中向dataset添加条件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在群集中向dataset添加条件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在群集中向dataset添加条件
EN