首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有缺失值的Minkowski距离

有缺失值的Minkowski距离
EN

Data Science用户
提问于 2018-09-11 04:12:18
回答 1查看 619关注 0票数 1

我目前正在为数据科学做一门学科,并有以下几点我试图理解。

我们希望在可能不存在值的数据集中计算距离。现在我知道R在默认情况下是这样做的,但是我们正在学习什么背后的“如何”。

文学我们是给各州的。“其想法是用有效(不缺失)项的数目来规范内部和,因此从不同的项量计算出的距离是可通约的。否则,用较少的缺失值计算的距离往往会人为地增大。”

给定以下数据集。

我们有以下欧几里德和曼哈顿的样本公式

欧氏距离: d(x1,x2) =√(4/3) *( 2-7)2+ (1 - (-4))2 +(0-8)2)=√(4/3)*114 = 12.328

曼哈顿: d(x3,x4) = (4/2) *(\x{e76f}\x{e76f}\x{e76f}= (4/2)*10 = 20

假设欧几里得的归一化部分是每一行的不缺失项的数目被除以?

如何推导出曼哈顿公式的归一化部分?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-09-11 08:25:34

输入公式的方式有点令人困惑,但下面是替换公式的尝试。

欧几里得距离的定义如下:

曼哈顿距离的定义如下:

处理缺失的条款是一个独立的问题。在这个例子中,处理它的方法是取当前特征的平均值(除以它们的数目),然后乘以特征的总数,从而使数据达到与数据点相当的规模,而不缺少特征。

现在让我们仔细看看这个例子。功能的总数为4。要计算数据点之间的距离,您只能使用这两种特性中都存在的特性:

  • 第一个欧几里德公式发现了x1和x2中都存在的3个特征。因此,你的系数是4/3。
  • 第二个(曼哈顿)公式发现了x3和x4的两个特性。因此,系数为4/2。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/38078

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档