文章/答案/技术大牛

发布

社区首页 >问答首页 >距离度量的选择与相似性度量

问距离度量的选择与相似性度量
EN

Data Science用户

提问于 2020-07-05 06:41:55

回答 1查看 293关注 0票数 2

我正试图决定哪种特定的算法最适合我的用例。

我有一个城市大约1000个实体建筑的数据集，包括位置、距离、年份和其他特征等。对于每一个新的数据点，一个建筑物，我想根据特征空间的比较找到3到5个最相似的建筑。

我把相似性定义为特征的加权比较。我想迭代整个特征空间(w/ filter类似的位置)，并选择3-5最相似的建筑匹配新的建筑数据点。

以下是我的数据：

我想知道什么相似性度量会有意义？我在python工作，所以更喜欢用pythonic/sci来学习这种方法。

python

scikit-learn

clustering

unsupervised-learning

回答 1

Data Science用户

回答已采纳

发布于 2020-07-05 07:23:19

在我看来，您在用例中寻找的不是集群，而是距离度量。

当您获得一个新的数据点时，您希望找到3-5个最相似的数据点；不需要对其进行聚类。计算从新数据点到每个“旧”数据点的距离，并选择前3-5。

现在，选择哪一种距离？还有其他的选择。如果您正在使用SKLearn，我将查看此页 (例如，距离(/similarity)度量)。

如果您的特性是连续的，您可以规范它们并使用余弦相似；从这个开始，看看它是否合适。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/77155

复制

相似问题

问距离度量的选择与相似性度量
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问距离度量的选择与相似性度量EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问距离度量的选择与相似性度量
EN