首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >三值特征的距离度量

三值特征的距离度量
EN

Data Science用户
提问于 2017-02-17 16:15:37
回答 3查看 339关注 0票数 3

我有一个由100个特性组成的数据集,每个特性都是三元的:如果它存在于一个类别中,则为-1;如果它不存在,则为0;如果它存在于第二个类别中,则为1。例如

代码语言:javascript
复制
F1 F2 F3 ... F90 F91 F92 ... F99 F100
0  0  0  ... 1   -1  0   ... 0   -1
0  -1 0  ... -1   0  1   ... 0   0

数据非常稀疏,100个特性中的20个对于每一行数据的值为-1或1。我想通过热图可视化和树状图找到类似的数据行,但是我对是使用欧几里德距离还是使用城市块距离感到困惑。我对数据挖掘非常陌生,在阅读scipy页面时,我发现了许多我不知道意味着什么的距离度量。我的数据集有很好的距离度量吗?

EN

回答 3

Data Science用户

发布于 2017-02-17 17:37:05

如果您认为数据的每一行都是向量,那么“距离”(相似性)的合理方法将是余弦相似。这是通常用于在协同过滤中查找用户-用户或项-项向量之间的相似性的东西。

票数 0
EN

Data Science用户

发布于 2017-02-17 17:48:18

坦率地说,我认为无论您是使用城市块还是在本例中使用明考斯基距离的任何泛化,只要度量在计算字符串/向量距离时不给出不同的期望值,这并不重要。您可以使用城市块的距离,因为它的计算速度比欧几里得,如果你有许多组合来计算。

票数 0
EN

Data Science用户

发布于 2017-07-19 07:03:46

我认为这里的Hamming距离也可以考虑。

在信息论中,两个长度相等的字符串之间的汉明距离是对应符号不同位置的数目。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/17036

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档