我有一个商人数据集,有80万个样本和18,000个标签。每个样本都与单个标签相关联,并且标签是独立的。
示例示例如下所示
description, label
int'l 0028240525 amazon uk retail amazon.co.uk, Amazon除了现有的样本外,还将有新的零售商添加到数据集中。在这种情况下,很可能只有一个样本的新零售商。
总之,我需要一个分类器
有什么办法能同时解决这两方面的问题吗?也许两个独立的分类器更有意义?
发布于 2019-03-02 18:12:11
对于多类分类问题,存在多个算法,这些算法本身就是以一种能够解决这些问题的方法构建的。一些例子: kNN,朴素贝叶斯,决策树.
为了使性能在所有标签上都准确,并且分类器显示出很少的偏差,您可以使用其他方法:可以对少数类或低样本多数类进行过采样,方法是所有标签都有与它们相关的相同数量的点。
在这里,您可以找到一些有趣的答案,关于如何与决策树分类中的类不平衡作斗争:https://stats.stackexchange.com/questions/28029/training-a-decision-tree-against-unbalanced-data
发布于 2019-03-04 11:12:13
kNN是一个懒惰的老化问题,在生产中需要一些时间来预测。分类器实际上取决于问题。
对于不平衡,您可以执行以下操作:低采样、过采样。您也可以在构建分类器时使用class_weight参数,请检查https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html
发布于 2019-03-11 07:45:33
我认为你的问题是一些简单的学习问题。关于这个主题的文章会对你有帮助。
您可以看到对本主题这里的简要介绍。
https://datascience.stackexchange.com/questions/46518
复制相似问题