我正在尝试构建一个分类器,如果一个文档是一个关于体育的文档,它就会进行分类。我有足够的体育文档样本来训练分类器,但是我无法想象我会如何样本“非体育文档”类别,因为可以有任何东西--书籍、新闻文章、简历、发票等等。如何处理这个问题?
我已经尝试过用我的运动文档样本训练一个类别的支持向量机分类器,但是结果证明它的准确率很差--大约6%。
我也读过有关PU的学习,你认为这是方法吗?还有其他选择吗?
谢谢。
发布于 2020-01-31 12:45:50
您的问题确实是一个典型的一类分类问题,据我所知,单类支持向量机通常是一个很好的选择。
我认为你应该调查是什么导致了糟糕的表现:
https://datascience.stackexchange.com/questions/67326
复制相似问题