首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >距离度量的选择与相似性度量

距离度量的选择与相似性度量
EN

Data Science用户
提问于 2020-07-05 06:41:55
回答 1查看 293关注 0票数 2

我正试图决定哪种特定的算法最适合我的用例。

我有一个城市大约1000个实体建筑的数据集,包括位置、距离、年份和其他特征等。对于每一个新的数据点,一个建筑物,我想根据特征空间的比较找到3到5个最相似的建筑。

我把相似性定义为特征的加权比较。我想迭代整个特征空间(w/ filter类似的位置),并选择3-5最相似的建筑匹配新的建筑数据点。

以下是我的数据:

我想知道什么相似性度量会有意义?我在python工作,所以更喜欢用pythonic/sci来学习这种方法。

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-07-05 07:23:19

在我看来,您在用例中寻找的不是集群,而是距离度量。

当您获得一个新的数据点时,您希望找到3-5个最相似的数据点;不需要对其进行聚类。计算从新数据点到每个“旧”数据点的距离,并选择前3-5。

现在,选择哪一种距离?还有其他的选择。如果您正在使用SKLearn,我将查看此页 (例如,距离(/similarity)度量)。

如果您的特性是连续的,您可以规范它们并使用余弦相似;从这个开始,看看它是否合适。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77155

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档