我想训练我的SpamAssasin过滤器,从2015年1月到2015年11月,我从该网站下载了所有垃圾邮件地址:Untanbled.org/垃圾邮件/
此外,我已经下载了我的火腿和垃圾邮件从我的个人gmail帐户。但是我所有来自gmail的火腿邮件都有大约2500封电子邮件,而这11封来自untroubled.org的邮件包含了大约410000封邮件。因此,火腿/垃圾邮件的关系约为1:160,因此,SpamAssassin过滤器将有太多垃圾邮件偏倚。
另一方面,这种垃圾邮件数据集网站主要被认为是垃圾邮件研究人员,而不是系统管理员。
那么,我的问题是,什么是系统管理通常做什么,或者,什么是推荐的做法?他们使用这种数据集吗?有那么危险吗?
发布于 2015-12-15 16:03:29
考虑到untroubled.org垃圾邮件收集方法的广泛性,我不认为使用这些数据来训练垃圾邮件杀手有任何问题。
您应该考虑您的电子邮件服务器的范围,并决定是否需要手动扫描大量已知的垃圾邮件。SA在根据内部规则过滤垃圾邮件方面做得很好,但是如果您有时间和倾向于手动扫描这些消息,它将不会给您的服务器带来任何问题。
https://serverfault.com/questions/743162
复制相似问题