我目前正在为数据科学做一门学科,并有以下几点我试图理解。
我们希望在可能不存在值的数据集中计算距离。现在我知道R在默认情况下是这样做的,但是我们正在学习什么背后的“如何”。
文学我们是给各州的。“其想法是用有效(不缺失)项的数目来规范内部和,因此从不同的项量计算出的距离是可通约的。否则,用较少的缺失值计算的距离往往会人为地增大。”
给定以下数据集。

我们有以下欧几里德和曼哈顿的样本公式
欧氏距离: d(x1,x2) =√(4/3) *( 2-7)2+ (1 - (-4))2 +(0-8)2)=√(4/3)*114 = 12.328
曼哈顿: d(x3,x4) = (4/2) *(\x{e76f}\x{e76f}\x{e76f}= (4/2)*10 = 20
假设欧几里得的归一化部分是每一行的不缺失项的数目被除以?
如何推导出曼哈顿公式的归一化部分?
发布于 2018-09-11 08:25:34
输入公式的方式有点令人困惑,但下面是替换公式的尝试。
欧几里得距离的定义如下:

曼哈顿距离的定义如下:

处理缺失的条款是一个独立的问题。在这个例子中,处理它的方法是取当前特征的平均值(除以它们的数目),然后乘以特征的总数,从而使数据达到与数据点相当的规模,而不缺少特征。
现在让我们仔细看看这个例子。功能的总数为4。要计算数据点之间的距离,您只能使用这两种特性中都存在的特性:
https://datascience.stackexchange.com/questions/38078
复制相似问题