首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大量标签的分类器

大量标签的分类器
EN

Data Science用户
提问于 2019-03-02 11:03:48
回答 3查看 1.2K关注 0票数 2

我有一个商人数据集,有80万个样本和18,000个标签。每个样本都与单个标签相关联,并且标签是独立的。

示例示例如下所示

代码语言:javascript
复制
description, label
int'l 0028240525 amazon uk retail amazon.co.uk, Amazon

除了现有的样本外,还将有新的零售商添加到数据集中。在这种情况下,很可能只有一个样本的新零售商。

总之,我需要一个分类器

  1. 处理大量的标签(~18,000份,独立的,每个样本的单一标签)
  2. 能够对样本不足的标签(即单一零售商)进行分类。

有什么办法能同时解决这两方面的问题吗?也许两个独立的分类器更有意义?

EN

回答 3

Data Science用户

发布于 2019-03-02 18:12:11

对于多类分类问题,存在多个算法,这些算法本身就是以一种能够解决这些问题的方法构建的。一些例子: kNN,朴素贝叶斯,决策树.

为了使性能在所有标签上都准确,并且分类器显示出很少的偏差,您可以使用其他方法:可以对少数类或低样本多数类进行过采样,方法是所有标签都有与它们相关的相同数量的点。

在这里,您可以找到一些有趣的答案,关于如何与决策树分类中的类不平衡作斗争:https://stats.stackexchange.com/questions/28029/training-a-decision-tree-against-unbalanced-data

票数 1
EN

Data Science用户

发布于 2019-03-04 11:12:13

kNN是一个懒惰的老化问题,在生产中需要一些时间来预测。分类器实际上取决于问题。

对于不平衡,您可以执行以下操作:低采样、过采样。您也可以在构建分类器时使用class_weight参数,请检查https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

票数 1
EN

Data Science用户

发布于 2019-03-11 07:45:33

我认为你的问题是一些简单的学习问题。关于这个主题的文章会对你有帮助。

您可以看到对本主题这里的简要介绍。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/46518

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档