我对ML和Datascience非常陌生,所以我的问题可能有点傻。我有一个数据集,每一行都是向量a1、a2、a3、a3、.这些向量不仅在测量值上不同,而且在n和和A= a1 + a2 + a3 +...+ an上也是不同的。
除了15-20维外,大多数矢量都有5-6维.平均而言,它们的成分的价值通常在40-50之间。
我尝试过Kmeans、DBSCAN和GMM对它们进行集群:
现在我想把n和A的信息包含到这个过程中。例如:-Vector 1 0,1,2,1,0和向量2,2,4,5,3,2,1,0,它们在n和A上都是不同的,它们不能在同一个集群中。每个集群只包含具有相似(关闭值)A和n的向量,然后再考虑它们的分量。
我在Python上使用sklearn,我很高兴听到关于这个问题的建议和建议。
发布于 2017-09-13 07:05:29
你的主要问题是如何度量相似性。
我很惊讶你能运行这些算法,因为通常他们会期望所有的向量都有相同的长度来计算距离。也许你会自动地用0填充它们--这就是为什么长向量最终远离所有其他向量的原因。
不要将算法用作黑匣子
你需要了解他们在做什么,否则结果可能是无用的。在你的例子中,他们使用的距离很差,所以结果当然不会很好。
因此,首先,您需要找到一种更好的方法来计算两个不同长度点的距离。0,1,2,1,0和30,40,50,60,50,40,30应该有多相似。对我来说,这是一个非常相似的模式(斜坡向上,斜坡向下)。
https://stackoverflow.com/questions/45931835
复制相似问题