文章/答案/技术大牛

发布

社区首页 >问答首页 >大量标签的分类器

问大量标签的分类器
EN

Data Science用户

提问于 2019-03-02 11:03:48

回答 3查看 1.2K关注 0票数 2

我有一个商人数据集，有80万个样本和18,000个标签。每个样本都与单个标签相关联，并且标签是独立的。

示例示例如下所示

description, label
int'l 0028240525 amazon uk retail amazon.co.uk, Amazon

除了现有的样本外，还将有新的零售商添加到数据集中。在这种情况下，很可能只有一个样本的新零售商。

总之，我需要一个分类器

处理大量的标签(~18,000份，独立的，每个样本的单一标签)
能够对样本不足的标签(即单一零售商)进行分类。

有什么办法能同时解决这两方面的问题吗？也许两个独立的分类器更有意义？

naive-bayes-classifier

machine-learning

logistic-regression

回答 3

Data Science用户

发布于 2019-03-02 18:12:11

对于多类分类问题，存在多个算法，这些算法本身就是以一种能够解决这些问题的方法构建的。一些例子: kNN，朴素贝叶斯，决策树.

为了使性能在所有标签上都准确，并且分类器显示出很少的偏差，您可以使用其他方法:可以对少数类或低样本多数类进行过采样，方法是所有标签都有与它们相关的相同数量的点。

在这里，您可以找到一些有趣的答案，关于如何与决策树分类中的类不平衡作斗争：https://stats.stackexchange.com/questions/28029/training-a-decision-tree-against-unbalanced-data

票数 1

Data Science用户

发布于 2019-03-04 11:12:13

kNN是一个懒惰的老化问题，在生产中需要一些时间来预测。分类器实际上取决于问题。

对于不平衡，您可以执行以下操作:低采样、过采样。您也可以在构建分类器时使用class_weight参数，请检查https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

票数 1

Data Science用户

发布于 2019-03-11 07:45:33

我认为你的问题是一些简单的学习问题。关于这个主题的文章会对你有帮助。

您可以看到对本主题这里的简要介绍。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/46518

复制

相似问题

问大量标签的分类器
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大量标签的分类器EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问大量标签的分类器
EN