问Parzen和k近邻
EN

Data Science用户

提问于 2018-01-01 11:44:55

回答 1查看 2K关注 0票数 4

我有这个计算密度的公式。$$p_n(x) = \frac{k_n / n}{V_n}$$

有人告诉我，使用Parzen窗口方法，您可以将$V_n$指定为$n$的函数。因此，如果$V$随着$n$的增加而下降，很明显它是一个固定的体积。

我还被告知，使用knn方法，您可以将$k_n$指定为$n$的函数。因此，如果随着$n$的增加而增加，那么很明显，卷是依赖于卷的。

有谁能解释一下上面的说法吗。我觉得我有点清楚knn和Parzen是如何工作的。(knn计数$k$最近的邻居，在新的样本分配给拥有最多选票的类)。在Parzen，音量是固定的)。

我也不明白图中的两个公式。图中给出了两种估计每个正方形中心点$x$的密度的方法。上面的knn，底部的Parzen

machine-learning

回答 1

Data Science用户

回答已采纳

发布于 2018-01-02 13:48:16

向量$x$从样本空间的某个区域的$p(x)$中提取的概率由$P= \int_{R} p(x')dx'$给出。给出了一组从分布中提取的N向量；很明显，这些N向量落入$R$的概率k是由$P(k) = \binom{N}{k} (1-p)^{N}$给出的。由二项式p.m.f的性质，$\frac{k}{N}$的均值和方差分别为${E} = P$和${var} = \frac{P(1-P)}{N}$。因此，当$N \rightarrow \infty$时，分布变得更明确，方差更小。因此，我们可以期望从属于区域$R$的点的平均分数中得到概率P的一个很好的估计。因此，$P \cong \frac{k}{N}$，

现在假设区域$R$很小，使得$p(x)$在其中变化不大，那么$\int_{R} p(x')dx‘\cong (X)V $。将此结果与上面的结果相结合。我们看到$p(x) \cong \frac{k}{NV}$。

这就是你发现的公式的来源。因此，如果我们想改进$p(x)$，我们应该让V接近0。然而，$R$会变得如此小，以至于我们找不到任何例子。因此，我们在实践中只有两个选择。我们必须让V足够大到可以在$R$中找到例子，或者小到使p(x)在$R$中是常数的。

基本方法包括使用KDE (parzen窗口)或kNN。KDE修正了V，而kNN修正了k。无论是哪种方法，只要V随N减小，k随N增长，这两种方法都会随着N的增加而收敛到真实的概率密度。

图中使用的公式只是满足这一要求的任意例子。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/26182

复制

相似问题

问Parzen和k近邻
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Parzen和k近邻EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Parzen和k近邻
EN