我必须使用一些分类器(例如朴素贝叶斯、支持向量机和另一个分类器)来做垃圾邮件检测应用,并比较它们的效率,但不幸的是,我不知道我应该做什么。
这是正确的吗:首先,我应该有trec2005,垃圾邮件或安然垃圾邮件等垃圾邮件.然后,我做文字预处理,如词干,停止字删除,标记等.
在此之后,我可以使用tf-以色列国防军在垃圾邮件中衡量我的特征/术语的权重。接下来,我用非常低的频率和很高的频率去除这些特征。然后我就可以把我的邮件分类了。对吗?
之后,我可以用真阳性、假阳性等来衡量我的正确分类。
如果某件事需要10倍的交叉验证?我该怎么用呢?
你能告诉我这些电子邮件分类的步骤是否可以吗?如果没有,请解释哪些是垃圾邮件分类的正确步骤。
发布于 2014-03-15 22:26:24
以下是构建垃圾邮件分类器所需的步骤:
1- 输入:包含足够的垃圾邮件和合法电子邮件样本的标记培训集。
2- 特征提取:将您的电子邮件文本转换为有用的功能,例如词干、删除停止词、词频。然后评估这些特征(即应用属性选择方法)来选择最重要的特征。
3-如果您有足够大的数据集,将其分成培训、验证和测试集。否则,可以使用整个数据集进行培训,并进行交叉验证以评估分类器的性能。
4- 训练分类器的,或者使用测试数据来评估它的性能,或者进行交叉验证。
5.使用经过训练的模型对新邮件进行分类。好了。
交叉验证的用途是在新的/未见的数据上评估模型的性能。因此,如果您有一个独立的测试数据集,您可能根本不需要交叉验证,因为您可以在测试数据集上评估模型性能。但是,当数据集很小时,可以将其划分为子集(例如10倍),然后重复训练10次,每次只使用90%的数据,并对其余10%进行测试等等。
你将得到10种分类器误差的估计平均值,从而得到均方或绝对误差。
https://stackoverflow.com/questions/22430325
复制相似问题