我正在尝试使用spark 2.2.0中的KNN算法。我想知道我应该如何设置我的水桶长度。记录数量/特征数量各不相同,因此我认为最好根据某些条件来设置长度。如何设置存储桶的长度才能获得更好的性能?我将向量中的所有特征重新缩放为0到1。
另外,有没有办法保证KNN算法返回最小数量的elemnets?我发现有时候存储桶中的元素数量比查询的k要少,因此我可能需要至少一个或两个邻居。
谢谢~
发布于 2017-10-02 18:46:35
根据Scaladocs的说法
如果输入向量被归一化,1-10倍的
pow(numRecords, -1/inputDim)将是一个合理的值
https://stackoverflow.com/questions/46342410
复制相似问题