首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >基于机器学习的垃圾邮件检测

基于机器学习的垃圾邮件检测
EN

Data Science用户
提问于 2014-10-29 21:57:15
回答 2查看 312关注 0票数 4

大多数在线教程喜欢使用一个简单的示例来介绍机器学习,方法是对垃圾邮件中的未知文本进行分类或不对垃圾邮件进行分类。他们说这是二进位问题。但是为什么这是一个二元类的问题呢?我认为这是一个单级问题!我只需要我的收件箱积极样本,以了解什么不是垃圾邮件。如果我确实把一堆非垃圾短信作为阳性样本,一堆垃圾邮件作为否定样本,那么当然可以训练二进制分类器并根据未标记的数据进行预测,但是与onc类方法有什么区别呢?在那里,我只需要定义一个训练集的所有非垃圾邮件的例子,并培训一些一级分类器。你认为如何?

EN

回答 2

Data Science用户

回答已采纳

发布于 2014-10-30 14:48:34

严格地说,“一种分类”作为一个概念是没有意义的。如果预测值只有一种可能的状态,那么就不存在预测问题。答案总是单级的。

具体来说,如果你只有垃圾邮件的例子,你总是可以达到100%的准确性,将所有电子邮件归类为垃圾邮件。这显然是错误的,唯一知道错误的方法是知道分类错误的地方--电子邮件不在垃圾邮件类别中。

所谓的单级分类技术实际上是异常检测方法.他们有一个隐含的假设,即与示例不同的事物不是单个类的一部分,但是,这只是一个假设,即数据可能不在类中。里面隐藏着一个二元分类问题。

二进制分类器有什么问题?

票数 6
EN

Data Science用户

发布于 2014-10-30 07:31:03

如果您想将一个新示例归类为垃圾邮件或垃圾邮件,则会出现问题。一个类的方法只会给出一个新实例如何适合这个类的分数,但是如何在不知道另一个类的分数有多大的情况下将其转化为二进制预测呢?

如果你看一下朴素的贝叶斯分类器,它本质上是为每个类训练一个“一类”模型,然后通过选择得分最高的类来进行预测。但这要求你对所有课程都要有培训的例子。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/2373

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档