我有一个由100个特性组成的数据集,每个特性都是三元的:如果它存在于一个类别中,则为-1;如果它不存在,则为0;如果它存在于第二个类别中,则为1。例如
F1 F2 F3 ... F90 F91 F92 ... F99 F100
0 0 0 ... 1 -1 0 ... 0 -1
0 -1 0 ... -1 0 1 ... 0 0数据非常稀疏,100个特性中的20个对于每一行数据的值为-1或1。我想通过热图可视化和树状图找到类似的数据行,但是我对是使用欧几里德距离还是使用城市块距离感到困惑。我对数据挖掘非常陌生,在阅读scipy页面时,我发现了许多我不知道意味着什么的距离度量。我的数据集有很好的距离度量吗?
发布于 2017-02-17 17:37:05
如果您认为数据的每一行都是向量,那么“距离”(相似性)的合理方法将是余弦相似。这是通常用于在协同过滤中查找用户-用户或项-项向量之间的相似性的东西。
发布于 2017-02-17 17:48:18
坦率地说,我认为无论您是使用城市块还是在本例中使用明考斯基距离的任何泛化,只要度量在计算字符串/向量距离时不给出不同的期望值,这并不重要。您可以使用城市块的距离,因为它的计算速度比欧几里得,如果你有许多组合来计算。
发布于 2017-07-19 07:03:46
我认为这里的Hamming距离也可以考虑。
在信息论中,两个长度相等的字符串之间的汉明距离是对应符号不同位置的数目。
https://datascience.stackexchange.com/questions/17036
复制相似问题