首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Parzen和k近邻

Parzen和k近邻
EN

Data Science用户
提问于 2018-01-01 11:44:55
回答 1查看 2K关注 0票数 4

我有这个计算密度的公式。$$p_n(x) = \frac{k_n / n}{V_n}$$

有人告诉我,使用Parzen窗口方法,您可以将$V_n$指定为$n$的函数。因此,如果$V$随着$n$的增加而下降,很明显它是一个固定的体积。

我还被告知,使用knn方法,您可以将$k_n$指定为$n$的函数。因此,如果随着$n$的增加而增加,那么很明显,卷是依赖于卷的。

有谁能解释一下上面的说法吗。我觉得我有点清楚knn和Parzen是如何工作的。(knn计数$k$最近的邻居,在新的样本分配给拥有最多选票的类)。在Parzen,音量是固定的)。

我也不明白图中的两个公式。图中给出了两种估计每个正方形中心点$x$的密度的方法。上面的knn,底部的Parzen

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-01-02 13:48:16

向量$x$从样本空间的某个区域的$p(x)$中提取的概率由$P= \int_{R} p(x')dx'$给出。给出了一组从分布中提取的N向量;很明显,这些N向量落入$R$的概率k是由$P(k) = \binom{N}{k} (1-p)^{N}$给出的。由二项式p.m.f的性质,$\frac{k}{N}$的均值和方差分别为${E} = P$和${var} = \frac{P(1-P)}{N}$。因此,当$N \rightarrow \infty$时,分布变得更明确,方差更小。因此,我们可以期望从属于区域$R$的点的平均分数中得到概率P的一个很好的估计。因此,$P \cong \frac{k}{N}$,

现在假设区域$R$很小,使得$p(x)$在其中变化不大,那么$\int_{R} p(x')dx‘\cong (X)V $。将此结果与上面的结果相结合。我们看到$p(x) \cong \frac{k}{NV}$。

这就是你发现的公式的来源。因此,如果我们想改进$p(x)$,我们应该让V接近0。然而,$R$会变得如此小,以至于我们找不到任何例子。因此,我们在实践中只有两个选择。我们必须让V足够大到可以在$R$中找到例子,或者小到使p(x)在$R$中是常数的。

基本方法包括使用KDE (parzen窗口)或kNN。KDE修正了V,而kNN修正了k。无论是哪种方法,只要V随N减小,k随N增长,这两种方法都会随着N的增加而收敛到真实的概率密度。

图中使用的公式只是满足这一要求的任意例子。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26182

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档