文章/答案/技术大牛

发布

社区首页 >问答首页 >多维分类向量间的最佳相似性(不同)测度

问多维分类向量间的最佳相似性(不同)测度
EN

Stack Overflow用户

提问于 2016-02-17 22:23:16

回答 1查看 83关注 0票数 0

我想找出以下数据点之间的相似性(不同)：

我的分类数据集如下：{艺术，科学，数学，医学，物理，化学，工程..etc }，例如15或20类。

因此，我想在这些库中找到Sim(Dis)，其中每个库行(数据点)表示行向量，

                                         Books attributes 
libraries  total-books    Art       science    Math.         chemistry  
 lib1          1000        50         200      0              3
 lib2          500         12         0        0              44
 lib3   etc..

这里的表格表示在每个图书馆找到的图书数量，当我们找到它在总图书中的频率百分比时，然后根据频率百分比重新排列每个图书馆的类别表示--例如，我不考虑以下向量中的零类别，

图书馆1={科学、艺术、化学、.}图书馆2={化学、艺术、.等等..。

如何找出lib1与lib2等之间的相似性/差异性等。

有什么建议吗？

uitableview

cluster-analysis

data-mining

data-analysis

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-02-18 08:44:56

如果你把书的总数标准化了。您可以将其余的列视为直方图。

然后您可以尝试任何基于分发的距离：

直方图相交距离
kullback-莱布勒-发散
$\chi^2$距离
詹森-香农发散

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35468972

复制

相似问题

问多维分类向量间的最佳相似性(不同)测度
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多维分类向量间的最佳相似性(不同)测度EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问多维分类向量间的最佳相似性(不同)测度
EN