试着用机器学习文字让我的脚湿透。
我在这个空间中看到的最常见的数据集是包含类、火腿和垃圾邮件的sms数据集。
最常见和最成功的方法似乎是将此问题建模为一个二进制分类问题,并使用多项式天真Bayes来解决它。
然而,我试图理解为什么这是一个二进制分类问题。
据我所知,垃圾邮件类别有一些共同的特点与它在整个班级-如广告,优惠,免费折扣等。
但是什么是火腿类还没有定义,是吗?火腿的定义是--除了垃圾邮件,什么都没有。
那么为什么这是一个二进制分类任务呢?
为了了解更多的情况,我正在试图解决新闻文章是属于政治阶层还是属于非政治阶层的问题。
假设我有一个标签数据集,每个类大约有3000个样本。
非政治阶层是体育、宗教、科学和技术等各种课程的混合体。
二进制分类器会比oneclassSVM这样的算法工作得更好吗?在这种算法中,除了政治新闻以外的任何东西都是离群点?
我可以用哪些其他算法来解决这个问题呢?我听说过PU学习,但是我还没有在任何机器学习库中看到算法的实现(我正在使用python)
如果你们中有谁有做课文课堂建模的经验的话。请分享您的意见和见解。
谢谢!
发布于 2018-05-05 06:16:39
关于垃圾邮件和火腿的情况,你是对的,垃圾邮件类别有共同的特征(单词),而火腿类别可以有多个子类别,每个子类别都有不同的特征集。然而,这些不同的特性也可以用于将实例标记为"ham“。如果垃圾邮件通常不谈论体育成绩,那么“分数”这个词的出现就可以用来将一条消息归类为“火腿”,即使它与典型的垃圾邮件如“广告”、“提供”等一起出现时也是如此。然而,一等分类器不能利用这种机制。
以类似的方式,具体的特征将有助于识别属于“体育”、“宗教”等的新闻文章,从而使它们更容易被贴上“非政治性”的标签。然而,杂项课程将更加多样化。
单类支持向量机在您想要检测新实例的情况下非常有用,这类实例是您以前从未见过的,因此无法预先对其进行描述。当理解到可用的标记数据集涵盖了在使用模型进行预测时会看到的典型示例时,可以使用二进制分类。
https://datascience.stackexchange.com/questions/31237
复制相似问题