我正在做一个文本分类任务,其中包含216个标有标签的段落。标签的分布情况如下:
{0: 17,1: 15,2: 16,3: 9,4: 10,5: 18,6: 24,7: 9,8: 33,9: 38,10: 27}
键表示的是类,值是样本的数量。
以下是我的问题:
Q1。有什么办法训练分类器吗?
Q2。如果我们想要一个11级文本分类器,我们需要多少个样本?
发布于 2021-01-05 00:55:42
是的,你可以采用不同的方法。你可以采用深度学习模式,但你不应该从零开始训练它们。你应该采用转移学习。由于您的数据集很小,您应该使用已经经过培训的深度学习模型。接下来,您应该将最后一层替换为另一层,该层具有与类相同数量的神经元。这个新增加的层的连接首先应该有随机的重量。最后,除了新添加的层外,您将冻结所有权重。在这种情况下,您的模型将有一个很好的能力来学习您的数据,它将不会过分适合它。您可能希望看到以下链接:
还可以利用具有软边缘的支持向量机进行良好的泛化.
关于样品的数量,不能事先说。此外,对于不同的任务,它可能是不同的。顺便说一句,看你的数据的人可以很容易地发现你有小的数据集。
发布于 2021-01-05 08:02:01
https://datascience.stackexchange.com/questions/87510
复制相似问题