我正在做一个小项目,试图看看我是否能够预测一封电子邮件实际上存在安全风险的可能性(网络钓鱼、垃圾邮件、社交工程等)。
为了做到这一点,我需要有一个例子,我可以用来理解“垃圾邮件”,“网络钓鱼”或“社会工程师”的语言。
我打算把重点放在英语电子邮件上。
是否有任何数据库包含以下方面的例子:
发布于 2016-03-15 01:50:47
假设你正在使用某种机器学习(即使你没有),你也需要一个最新的分散注意力的语料库(在反垃圾邮件行业,我们称之为“火腿”,因为它比“非垃圾邮件”更容易说),而这将是你最大的挑战。
在吸引垃圾邮件的道路上,一个起点可能是可公开使用的垃圾邮件过滤器培训集的旧堆栈溢出请求或这个旧的堆栈溢出头脑风暴:如何快速创建一个大量垃圾邮件的蜜罐? (删除;参见存档副本)。虽然两者都是堆栈溢出的非主题,但这里可能不是这样的。
另一个起点是SpamAssassin公共语料库,尽管此时它已经有了10+的历史。
还有其他吸引垃圾邮件和火腿的技术。搜索播撒垃圾邮件陷阱,你会发现大量来自反垃圾邮件专家和电子邮件服务提供者的建议。
一般来说,收集一个好的语料库会帮助你预测如何过滤新的垃圾邮件,这是很大的努力。要收集正确的钓鱼、预付费欺诈和其他有针对性的垃圾邮件的样本要困难得多。我已经提到,收集非散装火腿也将是一个挑战,但如果你试图校准捕捉网络钓鱼,你将需要确保你的火腿语料库包含许多合法的非营销邮件与财务和帐户维护。
你最好的选择是与这个行业中已经拥有良好数据的人合作。
这可以包括像SpamAssassin这样的自由软件社区。如果可以将工作实例化为正则表达式的逻辑组合(SpamAssassin规则),则可以让SpamAssassin QA系统针对自己的语料库运行组合。这将需要将您的工作授权为Apache v2,这样SpamAssassin本身就可以使用它。
反钓鱼工作小组 (APWG)有大量的网络钓鱼样本,尽管你可能不得不为它们付费(除非你正在为他们的电子犯罪研讨会做论文?)
蜜罐工程也收集了大量垃圾邮件(尽管他们不会有火腿)。你也许能和他们一起工作。
https://security.stackexchange.com/questions/117370
复制相似问题