首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >垃圾邮件过滤中的降维方法

垃圾邮件过滤中的降维方法
EN

Stack Overflow用户
提问于 2014-04-09 10:38:38
回答 1查看 417关注 0票数 0

我正在进行一个实验,需要比较几种垃圾邮件过滤分类算法的分类性能,即。朴素贝叶斯,支持向量机,J48,k,RandomForests等.我正在使用WEKA数据挖掘工具.在查阅文献时,我了解到了各种降维方法,这些方法大致可分为两类-

  1. 特征约简:主成分分析、潜在语义分析等。
  2. 特征选择:卡方,InfoGain,GainRatio等.

我还在他的博客:http://jmgomezhidalgo.blogspot.com.es/2013/02/text-mining-in-weka-revisited-selecting.html中读到了Jose Maria的WEKA教程。

他在博客中写道:“垃圾邮件过滤是一个典型的文本分类问题,其中降维可能是一个很大的错误。”所以,现在我很困惑,在垃圾邮件过滤的情况下,降维是否有用?

此外,我还在文献中读到了关于文档频率和TF-国防军是一种特征约简技术的文献。但我不知道它是如何工作的,并在分类过程中发挥作用。

我知道如何使用weka、链式过滤器和分类器等。我面临的问题是,由于我对特征选择/约简(包括TF-国防军)没有足够的了解,我无法决定如何以及应该结合哪些特征选择技术和分类算法来使我的研究有意义。我也不知道我应该使用的最优阈值与卡方,信息增益等。

在StringToWordVector类中,我有一个IDFTransform选项,那么它是否有必要将其设置为真,并使用一种特性选择技术,比如InfoGain?

请指导我,如果可能的话,请提供链接到资源,在那里我可以详细了解降维,并能有意义地计划我的实验!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-04-09 19:24:01

嗯,朴素的贝叶斯似乎最适合垃圾邮件过滤,而且它不能很好地降低维数。

许多降维方法试图识别出方差最大的特征。当然,这对垃圾邮件检测没有太大帮助,你需要鉴别功能。

另外,不仅有一种类型的垃圾邮件,而且还有很多。这很可能是为什么朴素贝叶斯比其他许多假设只有一种垃圾邮件的方法更有效的原因。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22960024

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档