话虽如此，在文学作品中，当集合中的元素是文本文档时，我看到人们通常使用后面的名称。在这种情况下，一个示例算法包括获取文本文档( k-shingles )大小为k的一组窗口，并使用Jaccard度量(两个文档中共有的瓦数除以不同标记的数目)在每个文档的k-标记集之间进行比较。为了避免显式地计算Jaccard度量，有一个定理。如果你将所有的k-条散列成64位整数(例如)，并考虑从64位整数到64位整数的随机排列，那么，如果将置换应用到每个文档的散列k-条集合，那么两组置换值中每一组最小元素相等的概率等于两个文档之间的Jaccard度量。

另一方面，如果元素集是R^n的子集(例如)，我看到人们通常使用名字。在这种情况下，存在许多技术。例如，一些有用的数据结构是八叉树，kd-树.

尽管如此，人们也使用矢量化技术将一些元素集合转换为R^n的子集，例如signal2vec、word2vec等。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72677312

复制

相似问题

问最近邻搜索与近重复检测
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问最近邻搜索与近重复检测EN