首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >多维分类向量间的最佳相似性(不同)测度

多维分类向量间的最佳相似性(不同)测度
EN

Stack Overflow用户
提问于 2016-02-17 22:23:16
回答 1查看 83关注 0票数 0

我想找出以下数据点之间的相似性(不同):

我的分类数据集如下:{艺术,科学,数学,医学,物理,化学,工程..etc },例如15或20类。

因此,我想在这些库中找到Sim(Dis),其中每个库行(数据点)表示行向量,

代码语言:javascript
复制
                                         Books attributes 
libraries  total-books    Art       science    Math.         chemistry  
 lib1          1000        50         200      0              3
 lib2          500         12         0        0              44
 lib3   etc..

这里的表格表示在每个图书馆找到的图书数量,当我们找到它在总图书中的频率百分比时,然后根据频率百分比重新排列每个图书馆的类别表示--例如,我不考虑以下向量中的零类别,

图书馆1={科学、艺术、化学、.}图书馆2={化学、艺术、.等等..。

如何找出lib1与lib2等之间的相似性/差异性等。

有什么建议吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-02-18 08:44:56

如果你把书的总数标准化了。您可以将其余的列视为直方图。

然后您可以尝试任何基于分发的距离:

  • 直方图相交距离
  • kullback-莱布勒-发散
  • $\chi^2$距离
  • 詹森-香农发散
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35468972

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档