首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >垃圾邮件分类-机器学习

垃圾邮件分类-机器学习
EN

Stack Overflow用户
提问于 2014-03-15 22:03:36
回答 1查看 3.7K关注 0票数 1

我必须使用一些分类器(例如朴素贝叶斯、支持向量机和另一个分类器)来做垃圾邮件检测应用,并比较它们的效率,但不幸的是,我不知道我应该做什么。

这是正确的吗:首先,我应该有trec2005,垃圾邮件或安然垃圾邮件等垃圾邮件.然后,我做文字预处理,如词干,停止字删除,标记等.

在此之后,我可以使用tf-以色列国防军在垃圾邮件中衡量我的特征/术语的权重。接下来,我用非常低的频率和很高的频率去除这些特征。然后我就可以把我的邮件分类了。对吗?

之后,我可以用真阳性、假阳性等来衡量我的正确分类。

如果某件事需要10倍的交叉验证?我该怎么用呢?

你能告诉我这些电子邮件分类的步骤是否可以吗?如果没有,请解释哪些是垃圾邮件分类的正确步骤。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-03-15 22:26:24

以下是构建垃圾邮件分类器所需的步骤:

1- 输入:包含足够的垃圾邮件和合法电子邮件样本的标记培训集。

2- 特征提取:将您的电子邮件文本转换为有用的功能,例如词干、删除停止词、词频。然后评估这些特征(即应用属性选择方法)来选择最重要的特征。

3-如果您有足够大的数据集,将其分成培训、验证和测试集。否则,可以使用整个数据集进行培训,并进行交叉验证以评估分类器的性能。

4- 训练分类器的,或者使用测试数据来评估它的性能,或者进行交叉验证。

5.使用经过训练的模型对新邮件进行分类。好了。

交叉验证的用途是在新的/未见的数据上评估模型的性能。因此,如果您有一个独立的测试数据集,您可能根本不需要交叉验证,因为您可以在测试数据集上评估模型性能。但是,当数据集很小时,可以将其划分为子集(例如10倍),然后重复训练10次,每次只使用90%的数据,并对其余10%进行测试等等。

你将得到10种分类器误差的估计平均值,从而得到均方或绝对误差。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22430325

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档