我试图构建一个对余弦局部性敏感的散列,这样我就可以找到候选的相似对项,而不必比较每一对可能的项。我有基本的工作,但在我的数据中的大多数对似乎有余弦相似性在-0.2到+0.2范围内,所以我试着把它切得很细,选择余弦相似性0.1及以上的东西。
我一直在阅读“挖掘海量数据集”第三章。这篇文章通过放大一个局部性敏感的家族来提高候选对选择的准确性。我想我大概能理解数学上的解释,但我很难理解我是如何实际地实现这一点的。
到目前为止,我的情况如下:
与mmds的3.6.3相比,mmds是当我查看r位的波段时--如果r位具有相同的值,一对电影会通过和步骤。我的或步骤发生在桶:电影是候选对,如果他们都在任何一个桶。
这本书建议我可以通过添加更多和或步骤来“放大”我的结果,但是我对如何实际地做到这一点感到困惑,因为对于更多层的建造过程的解释是检查成对的相等,而不是想出桶号。
有人能帮我理解怎么做吗?
发布于 2015-02-05 20:40:51
我想我已经解决了一些问题。基本上,我正在寻找一种在map/还原类型环境中工作的方法,我认为这种方法可以做到这一点。
所以,
所以现在我有了一个可行的解决方案,我所需要做的就是弄清楚使用这样的三个步骤是否会帮助我获得更好的结果,减少总体哈希位,还是更好的整体性能……
https://datascience.stackexchange.com/questions/4992
复制相似问题