我想找出以下数据点之间的相似性(不同):
我的分类数据集如下:{艺术,科学,数学,医学,物理,化学,工程..etc },例如15或20类。
因此,我想在这些库中找到Sim(Dis),其中每个库行(数据点)表示行向量,
Books attributes
libraries total-books Art science Math. chemistry
lib1 1000 50 200 0 3
lib2 500 12 0 0 44
lib3 etc..这里的表格表示在每个图书馆找到的图书数量,当我们找到它在总图书中的频率百分比时,然后根据频率百分比重新排列每个图书馆的类别表示--例如,我不考虑以下向量中的零类别,
图书馆1={科学、艺术、化学、.}图书馆2={化学、艺术、.等等..。
如何找出lib1与lib2等之间的相似性/差异性等。
有什么建议吗?
发布于 2016-02-18 08:44:56
如果你把书的总数标准化了。您可以将其余的列视为直方图。
然后您可以尝试任何基于分发的距离:
https://stackoverflow.com/questions/35468972
复制相似问题