我已经研究了这篇论文(http://www.siefkes.net/papers/mrf-spamfiltering.pdf)几天多了,但我不能理解第3节或之后的任何公式。
特别是,我不明白这些部分是什么意思:
P(w|C(w) = s) /*文档是垃圾邮件的概率条件是其中的给定单词是垃圾邮件?*/
P(w|C(w) = spam) /*与前一个表达式的概率相同吗?为什么是“垃圾邮件”而不是“s”,反之亦然?*/
{带有下标“clique c”的产品运算符}({带有下标c的产品运算符} (w,垃圾邮件))
在这篇论文中,最里面的表达式是指局部概率,但我不明白/*的意思。乘积运算符后面的(w,spam)是有序集还是函数?它的功能是什么?*/
我也不理解任何包含二项式系数的公式,但至少对于那些我认为我应该开始阅读的公式。
发布于 2013-06-16 06:25:25
关于前两个,在我看来,第一个是S中s的s变量,第二个是C(w) = spam,这就是s= spam的情况。您可以看到这一点,因为他们在定义中使用了Z_{s}和V^{s},并在示例中使用了Z_{ spam }和C(w) = spam,所以他们演示了C(w) = spam的情况,但定义是通用的,即涵盖C(w) =spam和C(w) =非垃圾邮件。
关于这一点:
{带有下标“clique c”的产品运算符}({带有下标c的产品运算符} (w,垃圾邮件))
(w,垃圾邮件)的定义没有在集合表示法中给出,而只是在该术语用作local probability for (w_{i}, w_{j}), given C(w) = s之前的段落中非正式地给出。恐怕我不知道局部概率是什么意思,我猜它与马尔可夫理论有关?
关于权重方案的定义,我真的不知道。
https://stackoverflow.com/questions/17128349
复制相似问题