首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >集极小的多类分类

集极小的多类分类
EN

Data Science用户
提问于 2021-01-05 00:22:34
回答 2查看 1.1K关注 0票数 2

我正在做一个文本分类任务,其中包含216个标有标签的段落。标签的分布情况如下:

{0: 17,1: 15,2: 16,3: 9,4: 10,5: 18,6: 24,7: 9,8: 33,9: 38,10: 27}

键表示的是类,值是样本的数量。

以下是我的问题:

Q1。有什么办法训练分类器吗?

Q2。如果我们想要一个11级文本分类器,我们需要多少个样本?

EN

回答 2

Data Science用户

发布于 2021-01-05 00:55:42

是的,你可以采用不同的方法。你可以采用深度学习模式,但你不应该从零开始训练它们。你应该采用转移学习。由于您的数据集很小,您应该使用已经经过培训的深度学习模型。接下来,您应该将最后一层替换为另一层,该层具有与类相同数量的神经元。这个新增加的层的连接首先应该有随机的重量。最后,除了新添加的层外,您将冻结所有权重。在这种情况下,您的模型将有一个很好的能力来学习您的数据,它将不会过分适合它。您可能希望看到以下链接:

还可以利用具有软边缘的支持向量机进行良好的泛化.

关于样品的数量,不能事先说。此外,对于不同的任务,它可能是不同的。顺便说一句,看你的数据的人可以很容易地发现你有小的数据集。

票数 1
EN

Data Science用户

发布于 2021-01-05 08:02:01

@Media给出了一个很好的答案。我只想在此就同一点作几点阐述。

  1. 为了在文本上使用迁移学习,很少有您可以使用的惊人模型,如RoBERTa伯特等,这些模型在拥抱脸变压器库中都很容易获得。您可以对他们进行如下培训:
    • 用预先训练过的重量初始化模型,然后冻结它们的重量。
    • 根据类更改最后一个分类层,然后使用数据集对分类层进行培训。(只需确保您正在使用正确的学习速度来训练分类器。)

  2. 对于训练神经网络需要多少数据,没有明确的规则。但是作为一个好的经验法则,拥有至少10倍于类数的数据显然是一个好的实践。因此,在您的例子中,每个类至少应该有100个数据点。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/87510

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档