文章/答案/技术大牛

发布

社区首页 >问答首页 >垃圾邮件分类-机器学习

问垃圾邮件分类-机器学习
EN

Stack Overflow用户

提问于 2014-03-15 22:03:36

回答 1查看 3.7K关注 0票数 1

我必须使用一些分类器(例如朴素贝叶斯、支持向量机和另一个分类器)来做垃圾邮件检测应用，并比较它们的效率，但不幸的是，我不知道我应该做什么。

这是正确的吗:首先，我应该有trec2005，垃圾邮件或安然垃圾邮件等垃圾邮件.然后，我做文字预处理，如词干，停止字删除，标记等.

在此之后，我可以使用tf-以色列国防军在垃圾邮件中衡量我的特征/术语的权重。接下来，我用非常低的频率和很高的频率去除这些特征。然后我就可以把我的邮件分类了。对吗？

之后，我可以用真阳性、假阳性等来衡量我的正确分类。

如果某件事需要10倍的交叉验证？我该怎么用呢？

你能告诉我这些电子邮件分类的步骤是否可以吗？如果没有，请解释哪些是垃圾邮件分类的正确步骤。

classification

spam-prevention

machine-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-03-15 22:26:24

以下是构建垃圾邮件分类器所需的步骤：

1- 输入：包含足够的垃圾邮件和合法电子邮件样本的标记培训集。

2- 特征提取：将您的电子邮件文本转换为有用的功能，例如词干、删除停止词、词频。然后评估这些特征(即应用属性选择方法)来选择最重要的特征。

3-如果您有足够大的数据集，将其分成培训、验证和测试集。否则，可以使用整个数据集进行培训，并进行交叉验证以评估分类器的性能。

4- 训练分类器的，或者使用测试数据来评估它的性能，或者进行交叉验证。

5.使用经过训练的模型对新邮件进行分类。好了。

交叉验证的用途是在新的/未见的数据上评估模型的性能。因此，如果您有一个独立的测试数据集，您可能根本不需要交叉验证，因为您可以在测试数据集上评估模型性能。但是，当数据集很小时，可以将其划分为子集(例如10倍)，然后重复训练10次，每次只使用90%的数据，并对其余10%进行测试等等。

你将得到10种分类器误差的估计平均值，从而得到均方或绝对误差。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22430325

复制

相似问题

问垃圾邮件分类-机器学习
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问垃圾邮件分类-机器学习EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问垃圾邮件分类-机器学习
EN